httpClient 抓取的页面数据不全
在做一个项目,需要用到抓取别的网页页面数据
开始用htmlUnit去做,好像htmlUnit 对JS的支持不是太理想,报JS错误,如果设置成忽略页面JS,但抓取的数据不全
然后用了httpClient去做,但是抓取的页面数据还是不全,和htmlUnit抓出来的数据一样,为什么为出现这种情况?
目标页面比较大,很多html代码都是后台生成的,是不是因为后台生成的html代码不能被获得?
------解决方案--------------------
只要是你看到的静态页面的html代码 都可以抓取,可能是你没解析好吧,我的博客中以前写过有相关的demo,你可以参考下