搜索引擎判断网站是否作弊的原理分析（二）_搜索

日期：2012-05-15　浏览次数：20682 次

　　承接搜索引擎判断网站是否作弊的原理分析(一)

广州SEO陈永继续为大家分析信任传播模型、不信任传播模型及异常发现模型3个代表算法，它们分别是TrustRank算法、BadRank算法和SpamRank算法。

　　我们先详细介绍TrustRank算法

　　TrustRank算法属于信任传播模型，基本遵循信任传播模型的流程，即算法流程如下两个步骤组成。

　　步骤一：确定值得信任的网页集合

　　TrustRank算法需要靠人工审核来判断某个网页应该被放入网页集合，考虑到人工审核工作量大，所以提出了两种初选信任网页集合的策略，在初选集合基础上再由人工审核。

　　*初选策略1：高PR分值网页，即认为高PR得分的网页是可信赖的，所以可以对网页计算PR值后，提取少量高分值网页作为初选页面集合。

　　*初选策略2:逆PR(Inverse PR),在pr计算过程中，是根据网页入链传入权值计算的，逆PR与此相反，根据网页的出链传出的权值计算，即先将网页之间的链接指向关系反转，选取的分较高的一部分子集作为初选页面。

　　步骤二:将信任分值从白名单网页按照一定方式传播到其他网页

　　在这个步骤，TrustRank算法的信任传播方式基于以下两个假设。

　　假设1：距离可信网页越近越值得信任，这里的距离指的是通过多少步链接转可以通达。

　　假设2：一个高质量网页包含的出链少，那么被指向的网页的是高质量网页的可能性越小。

　　所谓信任衰减，即距离可信网页越远的网页，通过传播得到的信任分值越小。

　　所谓信任值均分策略,即将网页获得的信任值按照出链个数平均分配，如果一个网页有K个出链，则每个出链分配到1/k的信任分值，并将分值传递给出链。

　　通过结合以上两个传播策略可以再页面节点图之间传播信任分值，在最后的计算结果中，低于一定信任度的页面会被认为是作弊网页。

　　先分析这里，搜索引擎判断网站是否作弊的原理分析(三)将为大家讲解BadRank算法，具体可以到我的博客(http://www.30ly.com)了解。

　　本文原创于广州SEO陈永博客http://www.30ly.com/?p=205

　　转载请加上转载地址

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。