日期:2014-05-17  浏览次数:20596 次

搜索引擎是如何采集到最新数据的?
例如在论坛里发一个帖子,后面很多人跟帖

每当有人更新帖子时数据就发生了变化

搜索引擎如何确保自己的数据是最新的?

难道要定时采集吗?那采集量太大了

------解决方案--------------------
确实是定时采集,然后比对
发生变化就更新

------解决方案--------------------
由于网站的内容经常在变化,因此搜索引擎蜘蛛也需不断的更新其抓取网页的内容,这就需要搜索引擎蜘蛛按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接。

搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定难度,而且会对带宽、服务器的资源都有浪费。搜索引擎的搜索引擎蜘蛛并不是所有的网站都采用同一个周期进行更新,对于一些重要的更新量大的网站,更新的周期短,如有些新闻网站,几个小时就更新一次;相反对于一些不重要的网站,更新的周期就长,可能一两个月才更新一次。更新的频率与网站内容的更新以及该页面外部链接的广泛度有很大的联系。
------解决方案--------------------
都有自己的一个蜘蛛程序,一般我们都称这个程序为(网络蜘蛛spider))(机器人ROBOTS),常用的就这几种叫法!每个搜索引擎都会每天在不同的时段把ROBOTS放出寻找新的站点或抓取新的网页。而ROBOTS会在网络上根据网页的连接(http:和src)不断抓取资料放入数据库。ROBOTS是根据网站连接来抓取新的资料的。所以要被搜索引擎抓取到,站点的连接是非常重要的。简单的说:从这个原理我们可以判断出,连接对一个站点的重要性!如果一个站点没有连接,何谈让蜘蛛来访问你站,何谈抓取你站的内容!所以,SEO的一个技术性问题:连接!或许你已经知道SEO注重一个连接,现在知道为什么要这样做了吧!当然,这只是一个小小的方面!简单说:根据搜索引擎一个如何抓取资料的原理我们总结出SEO的“连接”问题!所以,不管SEO涉及的任何东西,我们都要了解为什么会涉及到这个东西,就像这边的SEO连接问题!在者,网络蜘蛛虽然是延着连接抓取网页,但它不可能抓取到网上所有的网页.原因一是我们上边提到的连接问题,很多网页是根据连接找不到的,在者就是搜索引擎要把抓取到的网页进行处理,由于数据量太大,它是无法处理过来的!所以从这个因素总结出搜索引擎只会抓取那些重要的网页,而这里谈到的具体的重要网页到底什么才是重要的呢?还是符合它的算法的就是重要的.但这个算法中有一点可以确定,重要性网页从连接上来看是依靠的这个网页的链接深度.那么引伸到了另一个原理:连接深度!外部连接不考虑.从站内连接来看.如果想使更多的内容被收录,需要这几种分析:1,内部连接合理构造2,重点网页距离蜘蛛入口的连接深度3,一个好的网站地图.这三点的工作都是为了给蜘蛛更好的抓取内容,包括内容页权重提升问题等等!