用htmlparser分析并抽取本文-HTML教程-爱易网页

用htmlparser分析并抽取本文

日期：2014-05-17　浏览次数：20992 次

用htmlparser分析并抽取正文

转：http://hannibal730816.iteye.com/blog/149493

我这次要介绍的是如何抽取正文，这部分是最为核心的．因为如果不能很好的提取原有文章的内容和样式，那么搜索出来的东西?
就会惨不忍睹．根本就没有使用价值?

　　在做正文抽取模块之前我曾经参考过很多抽取模式，有配置模版的，有搞视觉匹配的．有搞关键字识别的．我挨个做了分析?
首先配置摸版是不太现实的，因为我在搜索技术资讯的时候，根本不知道会搜索到哪个网站，也根本没精力去配置摸版．所以这个行不通?
　　?
　　基于视觉效果的分析，这个难度比较大，而且只适合于规范的网站，而现在很多网站根本不规范，广告链接漫天飞．人家都把最好的?
位置留给广告了．而且我一直怀疑这个模式的可行性，它只是一个善意的推测．所以这方面没做过多尝试?

　　我在想，是否有种简单的方法呢？难道就没有什么共性吗？?

　　我想所有的正文应该有个共同的特点，那就是正文的长度应该超过其他文字组合的长度．很少会有一句话的正文，很少会有长度?
短于标题的正文．所以这个应该成为一个突破口．?

　　接下来，有一个很重要的问题，那段最长的正文在哪里呢？?
　　肯定是在一个TABLE，或者DIV，或者ParagraphTag里．那好，那就找到那个包含文字最多的DIV或者TABLE．?

　　不过问题又来了，HTML页面，经常是HTML元素的长度超过了正文的长度，有时候混入了不少的JAVASCRIPT．这些元素?
HTMLPARSER经常会误认为是正文加以识别，导致很多正文竟然是一段JAVASCRIPT．?
　　祛除杂质是一个关键，这里面要把那些ＨＴＭＬ中常用的标签，以及连接中正文去除掉，否则，你搜索出来的很可能是别的什么，尤其?
当正文文字相对较少的时候．我在搜索SOHU页面的时候就经常遇到这个问题，原因是SOHU的页面不是严格按照DIV布局，里面有很多广告?
的JAVASCRIPT。新浪的有些页面也有这个现象，反到是一些中小网站的布局很规范，呵呵，真奇怪了。?

　　做完这些工作后，我发现仍然有些网页不能正常抓取，原因是HTMLPARSER对TEXT的认识有问题．例如一段文字在?
ParagraphTag中或者span中包含的，就不能很好的识别．所以要单独做个抽取ParagraphTag内容的函数．?

　　做完这些步骤后，有一个问题出来了就是正文中包含的图片，连接，粗体，正常的表格．这些问题一个个的冒出来．既然问题出来了?
那就要一个个的解决．解决了这些难题．我的网站抓取文章的质量就大大的提高了85%的准确率，基本达到实用阶段．我网站上的正文快照基本和原文保持一致．?

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

用htmlparser分析并抽取本文

相关资料更多>

推荐阅读更多>