日期:2014-05-18  浏览次数:20446 次

(关于采集)有没有办法判断页面的访问是否为搜索引擎?

为什么搜索引擎不公开域名,只有指定的域名访问表示是搜索引擎在采集

另外的访问是用户在采集,这样就能防止一般的采集方法了

问题是要如何识别来自搜索引擎的访问?

------解决方案--------------------
如果你不想被采集,可以使用robots.txt
http://www.baidu.com/search/robots.html
http://support.google.com/webmasters/bin/answer.py?hl=zh-Hans&answer=156449

另外,一般的搜索引擎的采集UserAgent或者Referer都有关键字

http://lzj0470.iteye.com/blog/905379
------解决方案--------------------
页面只要显示到客户端了,
就能被采集了
------解决方案--------------------
做采集的,可以完全模拟浏览器的一切操作。
要防止采集太难了。

百度,搜搜,搜狗,QQ 空间。。。。我都采集过。。。
------解决方案--------------------
分析http头和ip。几大引擎的UserAgent和爬虫的地址是一定的。
------解决方案--------------------
不要程序去弄,服务器配置一个好一点的防火墙就OK了

如果某一个IP地址在你页面的动作造成内存爆增的情况就会马上封了这个IP
------解决方案--------------------
据我所知,这个目前比较困难。
因为http请求头都可以通过程序伪造