日期:2014-05-16  浏览次数:20430 次

又来找大家帮忙了,页面相似度的问题
大家好,前面提了问题都解决了,现在又遇到问题了。
网站的页面相似度太高了,导致不被收录,这个是属于SEO的范畴,主要想问问大家这个网页相似度算法是什么样的,随便查了下基本上内页相似度都在80%以上。
我随便找网站上的两个内页比如:
http://www.pin365.net/info-id-371.html
http://www.pin365.net/info-id-370.html
我用相似度检查工具检查截图如下:

超过80%.我对这个页面改了下,去掉导航竟然相似度更大,去掉尾部的网站信息相似度还是一样的。
这个相似度大概是怎样计算的,请大家帮忙分析下哪里出的问题,需要怎样修改?
相似度检查的页面是这个:
http://tool.youboy.com/compare/
测试了一中午没搞定,请帮忙解决,不胜感激。

------解决方案--------------------
相似度算法,不知道怎么个情况,不过网站的收录什么的,不都是在收录一下内容吗?

比如爬虫会去爬取网页的内容,然后去掉分次要的内容,获取网页的整体的关键字,最后把关键字和对应的网页进行收录吧。

所以我觉得相似度算法应该是,对处理之后的关键字进行的对比吧。

猜的。
------解决方案--------------------
不太懂,把帖子转到js专区呗,那边人多,说不定就有对这些有研究的人呢。
------解决方案--------------------
哈哈,刚没注意,你这内容是可以任意发布的......别人可没那个美国时间去折腾那些内容
------解决方案--------------------
楼主啊,php有字符串相似度的比较。

你就ajax提交两个网址给php程序处理,然后返回结果就可以饿了。
------解决方案--------------------
本帖最后由 showbo 于 2014-01-12 12:49:42 编辑
去除所有html代码后对文字进行比较,一般是你的导航栏或者文章推荐那种重复了,正文内容很少相似度就很高,那种推荐或者最新文章改用js调用可以降低相似度

不过相似度这种不用太关心了,搜索引擎会自动排除导航,页脚那种重复率很高的内容的,不收录或者很少楼主整理下网站结构,可能目录太深了,不是大网站搜索引擎就爬3,4层,去找本seo的书籍来看