(关于采集)有没有办法判断页面的访问是否为搜索引擎?
为什么搜索引擎不公开域名,只有指定的域名访问表示是搜索引擎在采集
另外的访问是用户在采集,这样就能防止一般的采集方法了
问题是要如何识别来自搜索引擎的访问?
------解决方案--------------------
如果你不想被采集,可以使用robots.txt
http://www.baidu.com/search/robots.html
http://support.google.com/webmasters/bin/answer.py?hl=zh-Hans&answer=156449
另外,一般的搜索引擎的采集UserAgent或者Referer都有关键字
如
http://lzj0470.iteye.com/blog/905379
------解决方案--------------------页面只要显示到客户端了,
就能被采集了
------解决方案--------------------做采集的,可以完全模拟浏览器的一切操作。
要防止采集太难了。
百度,搜搜,搜狗,QQ 空间。。。。我都采集过。。。
------解决方案--------------------分析http头和ip。几大引擎的UserAgent和爬虫的地址是一定的。
------解决方案--------------------不要程序去弄,服务器配置一个好一点的防火墙就OK了
如果某一个IP地址在你页面的动作造成内存爆增的情况就会马上封了这个IP
------解决方案--------------------据我所知,这个目前比较困难。
因为http请求头都可以通过程序伪造