日期:2014-05-16  浏览次数:20352 次

javascript动态生成网页抓取方案

第一步,用htmlunit将网页抓取下来,htmlunit是一个内置javascript解析引擎的无页面浏览器,不仅可以抓取html内容本身,还可以执行里面的js脚本生成动态页面,这点上比wget、httpclient强。它以jar的形式集成到应用提供api给java调用,执行效率也不错。

?

第二步,用jsoup对htmlunit抓取下来的网页进行解析,jsoup支持采用类似于jquery选择器的方式访问页面上的tag节点,易于操作。

?