nutch对某个contentType文档进展解析的流程-html-HTML教程-爱易网页

日期：2014-05-17　浏览次数：20923 次

nutch对某个contentType文档进行解析的流程--html

经过上一遍contentType流程介绍后，现在进入具体的针对html文档的解析过程介绍。

在ParseUtil#getParse()中，? 当选定一种parser(? 这里是HtmlParser)后，便进入到对应的getParse方法中。

大概步骤是：

1.猜测页面的最佳编码；

2.解析页面中特定的meta，如robots,base等元数据；

3.检查是否可以index或follow(fetch outlinks)

4.处理redir问题；

5.调用html pares filters进行对html的进一步过滤。注意这个步骤是不太重要的，而且针对这个默认只有parse-js插件可用。当然还有parse-microformats,parse-creativecommons等可用。

6.检查页面是否可以cache。其实这个就是在输出内容到页面时，是否打开快照的依据呀。

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。