日期:2014-05-16 浏览次数:20447 次
任务是:inverted link map
此过程也是比较简单,不过代码好像有点问题。。
1.inverted job
input:将segments下所有segs的parse_data作为输入。<url ,ParseData>
M:将<fromUrl,toUrls> --> <toUrl,fromUrl> list,即倒相了。
C&R:限制同一target url的inlinks数。
output format:MapFileOutputFormat。<url,inlinks>
?
[2.merged job]
M:<url,inlinks>,即inverted job的输出。对同一url的inlinks进行合并 。
R:同上
?
NOTE :
发现在inverted job中对norm,filter设置进行了断言:
if(!exists(linkdb)){job.set(norm,true); ...}
?觉得代码有点问题,作者愿意应该是要么在inverted job中执行,要么 在merged job中执行,所以应该改为:
if( !exsits(linkdb + "/current")){xxxx}
?因为后面还有断言是否存在current而决择 是否进行merged.
?
------------------
output resutls:
http://163caipiao.blog.163.com/??? Inlinks:
?fromUrl: http://caipiao.163.com/mobile/main.jsp anchor: 网易博客
?fromUrl: http://cp.163.com/ anchor: 网易博客
?fromUrl: http://caipiao.163.com/ anchor: 网易博客
http://188vip.vip.blog.163.com??? Inlinks:?????????????????????????????????? //inlinks标识以下所有是inverted urls
?fromUrl: http://vipmail.163.com/ anchor: VIP官方博客?????????? //打开此page,会发现其中有"vip官方博客"连接到上面哪个
.....
?