日期:2014-05-16  浏览次数:20452 次

linkdb-inverted link map

任务是:inverted link map

此过程也是比较简单,不过代码好像有点问题。。

1.inverted job

input:将segments下所有segs的parse_data作为输入。<url ,ParseData>

M:将<fromUrl,toUrls> --> <toUrl,fromUrl> list,即倒相了。

C&R:限制同一target url的inlinks数。

output format:MapFileOutputFormat。<url,inlinks>

?


[2.merged job]

M:<url,inlinks>,即inverted job的输出。对同一url的inlinks进行合并 。

R:同上

?

NOTE

发现在inverted job中对norm,filter设置进行了断言:

if(!exists(linkdb)){job.set(norm,true); ...}

?觉得代码有点问题,作者愿意应该是要么在inverted job中执行,要么 在merged job中执行,所以应该改为:

if( !exsits(linkdb + "/current")){xxxx}

?因为后面还有断言是否存在current而决择 是否进行merged.

?

------------------

output resutls:

http://163caipiao.blog.163.com/??? Inlinks:
?fromUrl: http://caipiao.163.com/mobile/main.jsp anchor: 网易博客
?fromUrl: http://cp.163.com/ anchor: 网易博客
?fromUrl: http://caipiao.163.com/ anchor: 网易博客

http://188vip.vip.blog.163.com??? Inlinks:?????????????????????????????????? //inlinks标识以下所有是inverted urls
?fromUrl: http://vipmail.163.com/ anchor: VIP官方博客?????????? //打开此page,会发现其中有"vip官方博客"连接到上面哪个

.....

?