日期:2012-05-15 浏览次数:20649 次
承接搜索引擎判断网站是否作弊的原理分析(一)
广州SEO陈永继续为大家分析信任传播模型、不信任传播模型及异常发现模型3个代表算法,它们分别是TrustRank算法、BadRank算法和SpamRank算法。
我们先详细介绍TrustRank算法
TrustRank算法属于信任传播模型,基本遵循信任传播模型的流程,即算法流程如下两个步骤组成。
步骤一:确定值得信任的网页集合
TrustRank算法需要靠人工审核来判断某个网页应该被放入网页集合,考虑到人工审核工作量大,所以提出了两种初选信任网页集合的策略,在初选集合基础上再由人工审核。
*初选策略1:高PR分值网页,即认为高PR得分的网页是可信赖的,所以可以对网页计算PR值后,提取少量高分值网页作为初选页面集合。
*初选策略2:逆PR(Inverse PR),在pr计算过程中,是根据网页入链传入权值计算的,逆PR与此相反,根据网页的出链传出的权值计算,即先将网页之间的链接指向关系反转,选取的分较高的一部分子集作为初选页面。
步骤二:将信任分值从白名单网页按照一定方式传播到其他网页
在这个步骤,TrustRank算法的信任传播方式基于以下两个假设。
假设1:距离可信网页越近越值得信任,这里的距离指的是通过多少步链接转可以通达。
假设2:一个高质量网页包含的出链少,那么被指向的网页的是高质量网页的可能性越小。
所谓信任衰减,即距离可信网页越远的网页,通过传播得到的信任分值越小。
所谓信任值均分策略,即将网页获得的信任值按照出链个数平均分配,如果一个网页有K个出链,则每个出链分配到1/k的信任分值,并将分值传递给出链。
通过结合以上两个传播策略可以再页面节点图之间传播信任分值,在最后的计算结果中,低于一定信任度的页面会被认为是作弊网页。
先分析这里,搜索引擎判断网站是否作弊的原理分析(三)将为大家讲解BadRank算法,具体可以到我的博客(http://www.30ly.com)了解。
本文原创于广州SEO陈永博客http://www.30ly.com/?p=205
转载请加上转载地址