httpClient怎样获取网页中js执行完后的网页源码
本帖最后由 michael2988 于 2010-11-22 18:42:20 编辑
最近用httpClient抓取网页源码的时候,如果源码是静态的能全部抓取,但是如果源码中含有js,httpClient抓取的源码不包括js,得到的源码不正确。我怎样才能获取网页中js执行完后的网页源码,比如获取"https://mail.qq.com/"的网页源码。
在论坛上看到有解决方案是:
调用一个浏览器组件来完成这个事, js执行完后再取其内容;具体怎样实现?
望请高手指点。。。
------最佳解决方案--------------------这个光靠httpclient是无法做到的,抓到的只能是最原始的数据
------其他解决方案--------------------httpClient抓取的是服务器端的输出,难道不是js执行完后的最终结果吗?
------其他解决方案--------------------不是,比如我想抓取qq邮箱主页的的源码得到的只有下面的一小段:
<html>
<head>
<meta http-equiv="refresh" content="0; url=/cgi-bin/loginpage">
</head>
</html>
------其他解决方案--------------------关注中,, 我也在找取得js分页页面数据的资料,可是都没有。
------其他解决方案--------------------这个是的
------其他解决方案--------------------用htmlunit试试
------其他解决方案--------------------那要怎么做呢,能不能给点思路!
------其他解决方案--------------------楼主,你的实现没有,能不能交流一下给点思路!
------其他解决方案--------------------楼主,怎么不出现了呢,问题解决了吗?我也遇到这样的问题,求赐教!
------其他解决方案--------------------用浏览器网页另存为试试
------其他解决方案--------------------楼主,请赐教.qq:497746404
------其他解决方案--------------------你另存为只能是手动多费劲啊。很不科学。我们想获取的是活值。并且能读出js中的内容。现在出现的情况是请求会i来的数据没有js的内容。其他的数据根本是没有用的。什么方法能使得有js数据呢?非常想知道这个问题。或者哪位能做。我可以花钱雇人的。
------其他解决方案--------------------你准备出多少钱。我会,你发邮件给我吧,geogreno1@gmail.com