日期:2014-05-17  浏览次数:20645 次

httpClient 抓取的页面数据不全
在做一个项目,需要用到抓取别的网页页面数据
 开始用htmlUnit去做,好像htmlUnit 对JS的支持不是太理想,报JS错误,如果设置成忽略页面JS,但抓取的数据不全
 然后用了httpClient去做,但是抓取的页面数据还是不全,和htmlUnit抓出来的数据一样,为什么为出现这种情况?

 目标页面比较大,很多html代码都是后台生成的,是不是因为后台生成的html代码不能被获得?

------解决方案--------------------
只要是你看到的静态页面的html代码 都可以抓取,可能是你没解析好吧,我的博客中以前写过有相关的demo,你可以参考下