又来找大家帮忙了，页面相似度的有关问题-JavaSript-爱易网页

又来找大家帮忙了，页面相似度的有关问题

日期：2014-05-16　浏览次数：20478 次

又来找大家帮忙了，页面相似度的问题
大家好，前面提了问题都解决了，现在又遇到问题了。
网站的页面相似度太高了，导致不被收录，这个是属于SEO的范畴，主要想问问大家这个网页相似度算法是什么样的，随便查了下基本上内页相似度都在80%以上。
我随便找网站上的两个内页比如：
http://www.pin365.net/info-id-371.html
http://www.pin365.net/info-id-370.html
我用相似度检查工具检查截图如下：

超过80%.我对这个页面改了下，去掉导航竟然相似度更大，去掉尾部的网站信息相似度还是一样的。
这个相似度大概是怎样计算的，请大家帮忙分析下哪里出的问题，需要怎样修改？
相似度检查的页面是这个：
http://tool.youboy.com/compare/
测试了一中午没搞定，请帮忙解决，不胜感激。

------解决方案--------------------
相似度算法，不知道怎么个情况，不过网站的收录什么的，不都是在收录一下内容吗？

比如爬虫会去爬取网页的内容，然后去掉分次要的内容，获取网页的整体的关键字，最后把关键字和对应的网页进行收录吧。

所以我觉得相似度算法应该是，对处理之后的关键字进行的对比吧。

猜的。
------解决方案--------------------
不太懂，把帖子转到js专区呗，那边人多，说不定就有对这些有研究的人呢。
------解决方案--------------------
哈哈,刚没注意,你这内容是可以任意发布的......别人可没那个美国时间去折腾那些内容
------解决方案--------------------
楼主啊，php有字符串相似度的比较。

你就ajax提交两个网址给php程序处理，然后返回结果就可以饿了。
------解决方案--------------------

本帖最后由 showbo 于 2014-01-12 12:49:42 编辑

去除所有html代码后对文字进行比较，一般是你的导航栏或者文章推荐那种重复了，正文内容很少相似度就很高，那种推荐或者最新文章改用js调用可以降低相似度

不过相似度这种不用太关心了，搜索引擎会自动排除导航，页脚那种重复率很高的内容的，不收录或者很少楼主整理下网站结构，可能目录太深了，不是大网站搜索引擎就爬3,4层，去找本seo的书籍来看

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

又来找大家帮忙了，页面相似度的有关问题

相关资料更多>

推荐阅读更多>