浅谈网页搜索排序中的投票模型_搜索_站长-站长文章-爱易网页

浅谈网页搜索排序中的投票模型_搜索_站长

日期：2012-05-14　浏览次数：20500 次

　　前些天读了一本《选举的困境》，其中有一章，从美国的选举制度说起，介绍美国选举制度的不足，然后针对其不足，提出种种改善，然而每种改善都有其各自的问题，其中的变化很有趣。

　　先说美国选举制度，美国的总统选举是一种“赢者通吃”的方式，每个州根据其人口多少，有几十或几百的“州票”，州里的人对总统候选人进行选举，在某个州获得票最多的那个候选人，获得这个州所有的“州票”，然后统计所有候选人的“州票”多少，获得最多“州票”的候选人获胜。

　　这样制度的问题是显然的，比如如果只有两个州，A州5个人，而B州4个人，州票也分别是5和4，如果某候选人X在A州以3:2获胜，另一个候选人Y在B州以4:0获胜，这样显然候选人Y在全国范围内获得了6张票，而候选人X只有在A州的3张票，但是由于“赢者通吃”，X获得了A周的全部5张“州票”，Y只获得了B周的4张“州票”，在全国只有1/3民众支持的X居然获得了选举的胜利。

　　这样的情况在2000年美国总统选举中就出现过，小布什的州票领先于戈尔，然而在全国民众中统计支持戈尔的人数却是大于小布什的，当然戈尔输给小布什还有另一个原因，这里按下不表。

　　如果放在算法领域，可以看出这里的问题在于，为了统计结果R(最适合的总统人选)，找到了一个特征A(每个民众的投票)，而决定结果R的，却不是特征A，而是由特征A推导出来的特征B(州票)，在特征A向特征B的推导过程中，信息丢失了(每个洲的支持百分比不一样)。

　　“赢者通吃”这种制度的具体历史原因先不说，有兴趣的朋友可以去看原著。解决这种问题的最直接方案就是从“赢者通吃”变成直选，也就是一人一票，直接统计票数，然而这样也会遇到一系列问题。

　　在谈那一系列问题之前，先把要解决的问题抽象一下：

　　有n个候选人，每个选民对这n个候选人投票，最终在n个候选人中选出最合适、最符合民意、也符合逻辑的那个人。

　　方案1：一票制，每人一票，选出自己最喜欢的候选人，对结果进行统计，得票最多的那个人当选。

　　这样做的问题是会导致作者定义的一种“鹬蚌困局”，举例说，如果有ABC三个候选人，其中BC政见比较类似，支持B的人也比较支持C，反之亦然，在全民中，喜欢BC的人占多数，A的政见和BC相反，支持A的人在全民中占少数。这样导致的后果就是，BC获得的票会比较分散，而A获得的票比较集中从而获得胜利，如果BC中有1人不参加选举，票就会集中到B或者C一个人的手中，从而使多数选民的支持者当选。前面按下不表的戈尔失败的另一个原因，就是有人认为有跟戈尔政见类似的耐德的参与，他分散了部分戈尔的选票。

　　可以对此问题有所改善的方案叫做“二选制”。

　　方案2：二选制，每人一票，如果无人获得大于50%的支持，则将得票最高的两个候选人拿出来，再进行一轮选举，得票多的人获胜。

　　法国总统选举就是这样的二选制，但是这样的方法只能改善“鹬蚌困局”，而不能彻底解决，2002年的法国总统大选就出现了类似的情况，当时支持左派政见的民众较多，然而在二选制下，最终的前两名却是一个右派和一个极右派。出现这种情况的原因是当年有16个总统候选人，且多数是持左派政见者，这样就导致左派的票极端分散。

　　方案3：n选制，每人一票，如果无人获得大于50%的支持，则去掉支持最少的候选人，再进行一轮投票，若依旧无人获得大于50%的支持，再去掉得票最少的候选人，直到有人大于50%支持为止。

　　2001年奥委会决定北京为2008年奥运会主办城市的时候，就是用的这样的制度，在第一轮投票里大阪被淘汰，北京在第二轮就获得了半数以上的支持，从而当选。

　　n选制的问题在于不实用，如果是奥委会这种只有几百个人投票的情况还可以使用，如果类似前面法国总统选举，有16个候选人，举国上下最多可能进行15次投票，成本太高。

　　方案4：即刻复选制，每个民众对候选人进行排序，如果某个候选人获得了50%以上的首选，则直接获得胜利，否则淘汰票数最低的候选人，并且把票数最低候选人的得票中的第二候选人拿出来，分给对应的候选人，如果有人获得50%以上，则当选，否则再淘汰一位最低的，并且把他票分给里面排序最高的且未被淘汰的候选人，如此往复。

　　爱尔兰总统选举和伦敦市长选举采用的是类似的方案，此方案也有问题，试想如此场景：选民共10人，中间派候选人是3人的首选，左派和右派的候选人分别是4人的首选，当然左派选民最讨厌右派候选人，而右派选民也最讨厌左派候选人，而左派右派的民众对中间派候选人倒是都可以接受，不管是即可复选制还是n选制，中间派候选人都会在第一轮被淘汰。而中间派候选人则是全体民众都可以接受的人，也最能调和各派之间矛盾，最和谐。

　　这个方案的本质问题是，虽然每个选民可以对候选人排序，但是在第一轮的时候却只考虑了第一选，没有考虑选民的二、三选。

　　方案5：上行复选制，跟方案4类似，只不过第一轮淘汰的不是支持最少，而是反对最多的候选人(获得最多末选票的候选人)

　　再看上面提到的情况，中间派候选人由于不是任何人的末选，所以第一轮淘汰的是左派或者右派，再第二轮选举中，中间派的候选人就可以获胜了。

　　方案5也有方案5的问题，考虑这样一种情况，只有两个候选人AB参选，选民9人，其中6人喜欢A而讨厌B，3人喜欢B而讨厌A，无论按照之前的哪种方式，都会是A获胜。但是现在又多了两个候选人C和D，喜欢B的3人中，都是把A列在最后一个候选的，而喜欢A的6人的末选，却是BCD各2票，这样，在第一轮选举中，A就由于获得了最多的末选票被淘汰了，而通过精心的构造例子，完全可以使B最终当选。仅仅由于CD参选或者不参选，A和B之间的胜负关系就发生了大逆转。

　　实际使用此方案的例子不多，只有在公元前507年的雅典有类似的方案，不是让民众投支持票，而是投反对票，把反对最多的人投出局。

　　方案6：多赛制，民众对候选人排序，然后候选人之间两两pk，统计每一张选票上看候选人A在候选人B前面还是B在A前面，如此找到获胜场次最多的候选人来赢得选举。

　　这样的问题是可能导致循环胜负，如ABC三个候选人，有3个民众，投票分别是ABC，BCA，CAB，可以看出AB之间A获胜两次，A>B;BC之间B获胜两次，B>C，AC之间C获胜两次，C>A，这样就构成了一个A>B>C的循环。这个是不是有点像足球联赛的记分制啊，如果积分相同，足球比赛中可以再看净胜球、进球、胜负关系等，但是作者并没有在这个方面进行展开，而是介绍了另一种方式：博达制。

　　方案7：博达制，民众对候选人排序，假如有n个候选人，第一位的候选人得n分，第二位得n-1分，以此类推，然后统计每个候选人的总分，获得最多分的获胜。

　　有人对博达制的批评是：可能有选民会利用这种方式进行作弊(投“策略票”)，最支持B的候选人本来心目中的排序是B>A>C，但是由于相对A，他们还是更喜欢B，因此，为了把B拉上来，就得把A拉下去，他们的投票就变成了B>C>A。博达对此批评的回应是：我的制度只适用于诚实的投票者。

　　而这本书的作者却认为博达制的“策略票”问题没那么严重，如果无法准确预测民意和精确控制策略票的投法，有可能因为用力过猛，不但把A拉下来了，反而让C获得的支持票增加，这样就使得最支持B的那些人的“策略票”反而使得他们最讨厌的C当选了，当年在IMDB上就发生过类似一幕：

　　电影《蝙蝠侠6》上映后，蝙蝠侠的粉丝们觉得这部片太酷了，于是就想把蝙蝠侠6投成IMDB第一位，于是他们疯狂的给蝙蝠侠6打高分，而同时，也纷纷的给当时的IMDB第一《教父》投低分，导致的结果就是用力过猛，教父变成了第三名，原来的第二肖申克的救赎(TSR)变成了第二(原来的第二是排在教父后面，新的第二是排在蝙蝠侠6后面)，而后来，随着疯狂粉丝的热情消退，理性的意见占据了上风，蝙蝠侠6的得分逐渐下降，跌到了第10。而教父还是在肖申克的救赎后面，很久没有回去了。

　　博达制是否有其他问题呢?

　　以上只是对这本书第14章的一个笔记，也仅仅针对“多候选人单职位”问题进行了讨论，书的后面还会对“多候选人多职位”的情况继续探讨，也就是根据每个人对候选人的排序，来决定最终的候选人排序。

　　回到搜索引擎领域来，如上策略的变迁会给我们一些

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

浅谈网页搜索排序中的投票模型_搜索_站长

相关资料更多>

推荐阅读更多>