pagerank算法是在爬虫爬完后计算,还是边爬边算呢
pagerank的具体意义呢?就是用于网页排序吗?爬虫需不需要这个功能呢?
现在做的一个爬虫,数据量较小,可以在内存中计算。
是不是爬完后生成一个图,根据出度入度来算呢?
看有些文章是根据pagerank过滤掉链接,直接不爬那些pr值低的网页,可是没爬完图都没有成型呀,怎么过滤呢。不能理解。
初学爬虫,很多概念不懂,请大家指教。
------解决方案--------------------
爬虫只管收集数据,不管其它的。
分析数据是其它软件完成的。