日期:2014-05-17  浏览次数:20724 次

httpclient抓取百度结果页面数据异常,高分求助
本人做了个站长工具,目的是获取关键词在百度的排名.主要原理是获取百度结果页面html源代码并分析。
百度结果页面是下面这个:
http://www.baidu.com/s?wd=csdn&rn=100

没有使用webclient类,使用的是一个网友封装的httpclient类,来自http://www.cnblogs.com/deerchao/archive/2007/08/09/849361.html

以前一直运行良好,没出过什么大问题。


前段时间3sb大战,百度不知道调整了什么,现在获取的 http://www.baidu.com/s?wd=csdn&rn=100 页面html源代码残缺不全:

<!DOCTYPE html><!--STATUS OK-->
...
...
...
'y':'F874FB57' }" href="http://www.baidu.com/link?
url=bdc29e59ed3b794b1e7db22cbdbcbd9f9acac19f6c0aa3ed218bb790f48053
227b04b2fe20d3bfd631e10f917cedde03629e4041a
c7c97b0b749efab0c187a50833570dcd5e6b6c3e5646ff0d4e0d3137f46034631
c28378bb7c4e5a9aa8d261df4347630c50c0d9f80192
c9c30b67cf398c23a7d0a0952a17554bc207e247c2f26ab71012c94336e55fb3fb
2bc092bde2d6e55ea4033fa2ec2167547947b523e34
cdd2cd9f00e3d4cc300b3d6e7facc22bc045289ac295795bb69a108ff66f0d1cf3
d143fd

明显看到最后代码是被截断了。

然后用asp 和 php 测试了一下,结果类似,html都是不全。
不过用浏览器测试,是没问题的。

求各位大神帮忙解答,先奉送100分,不够再加。

------解决方案--------------------
抓浏览器的的发送包,跟你自己的对比下,估计是你请求信息的问题
------解决方案--------------------
火狐下,HttpFox
------解决方案--------------------
+1
探讨
火狐下,HttpFox

------解决方案--------------------
浏览器 能做的 我们都能做。。干扰就是验证码
------解决方案--------------------
探讨
...
另外,我用的类对底层封装的比较好,看不到我软件发包情况。请问有没有什么软件可以检测我这软件的发包?