第一步,用htmlunit将网页抓取下来,htmlunit是一个内置javascript解析引擎的无页面浏览器,不仅可以抓取html内容本身,还可以执行里面的js脚本生成动态页面,这点上比wget、httpclient强。它以jar的形式集成到应用提供api给java调用,执行效率也不错。
?
第二步,用jsoup对htmlunit抓取下来的网页进行解析,jsoup支持采用类似于jquery选择器的方式访问页面上的tag节点,易于操作。
?
日期:2014-05-16 浏览次数:20352 次
第一步,用htmlunit将网页抓取下来,htmlunit是一个内置javascript解析引擎的无页面浏览器,不仅可以抓取html内容本身,还可以执行里面的js脚本生成动态页面,这点上比wget、httpclient强。它以jar的形式集成到应用提供api给java调用,执行效率也不错。
?
第二步,用jsoup对htmlunit抓取下来的网页进行解析,jsoup支持采用类似于jquery选择器的方式访问页面上的tag节点,易于操作。
?