一个采集得到信息不全的有关问题-PHP教程-爱易网页

一个采集得到信息不全的有关问题

日期：2014-05-17　浏览次数：20642 次

求助一个采集得到信息不全的问题
我要采集这个网站
http://www.tvmao.com/drama/MGxYWA==/episode/0

刚开始的时候，得到的信息是全的，

当采集到一定时候的时候，采集得到的信息只有半了，少了一些文字。

（我然后拿到其它地方用IE打开看的时候，发现先加载了一半文字，过一小会，在加载一半的文字）
（用本地浏览器打开，只有一半的文字）
还请问一下，怎么处理一下。才能获取全部信息。

------解决方案--------------------
有可能这个网站作了防采集处理，同一IP如果访问过频，针对此IP就启动防采集了，这也符合你说的刚开始可以完整采集，时间一长就不行的情况。不过这个还好了，有的网站变态到每次1K字节的间隔输出呢
------解决方案--------------------

探讨

这样啊，我该怎么做一下，才能不被防采集呢？
引用:

有可能这个网站作了防采集处理，同一IP如果访问过频，针对此IP就启动防采集了，这也符合你说的刚开始可以完整采集，时间一长就不行的情况。不过这个还好了，有的网站变态到每次1K字节的间隔输出呢

------解决方案--------------------
防止采集：
1：用户登录才能访问网站内容
2：利用脚本语言做分页(隐藏分页)
3：防盗链办法(只许可通过本站页面连接查看,如:Request.ServerVariables(“HTTP_REFERER“) )
4：全flash、图片或者pdf来浮现网站内容
5：网站随机接纳不同模版
6：接纳动态不规则的html标签
一旦要同时搜索引擎爬虫和采集器,这是很让人无奈的工作,因为搜索引擎第一步就是采集目标网页内容,这跟采集器原理同样,所以很多防止采集的方法同时也阻碍了搜索引擎对网站的收录,无奈,是吧?以上10条建议虽然不能百分之百防采集,可是几种方法一起适用已经拒绝了一大部分采集器了。

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

一个采集得到信息不全的有关问题

相关资料更多>

推荐阅读更多>