蜘蛛程序如何判断重复页面-C#教程-爱易网页

蜘蛛程序如何判断重复页面

日期：2014-05-17　浏览次数：20932 次

蜘蛛程序怎么判断重复页面
像百度蜘蛛那样的程序，是怎么判断抓取了重复页面的呢？比如说一个登陆页面，可能有N个页面有这个链接，该怎么判断呢？一定要判断的话“登录”页面的链接，勉强还算可以写出个判断语句来的，但要是再复杂的链接，又该怎么判断呢？？麻烦高手指点下啊！！！

------解决方案--------------------
网络爬虫对网页而言,重在采集内容
从一个网页入口，分析链接，一层一层的遍历，或者从一组网页入口，或者从一个rss源列表开始爬rss；
获取每个页面的源码保存在磁盘或者数据库里；
遍历抓下来的网页进行处理，比如提取正文，消重等；
根据用途把处理后的文本进行索引、分类、聚类等操作

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

蜘蛛程序如何判断重复页面

相关资料更多>

推荐阅读更多>

蜘蛛程序 如何判断重复页面

相关资料更多>

推荐阅读更多>

蜘蛛程序如何判断重复页面