日期:2014-05-17 浏览次数:20709 次
J. Andrew Clark
用Java写了一系列的工具
(Java APIs),NekoHTML
是其中之一。
NekoHTML
是一个简单地HTML扫描器和标签补偿器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能投扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档过程中常犯的错误。NekoHTML
能增补缺失的父元素、自动用结束标签关闭相应的元素,以及不匹配的内嵌元素标签。NekoHTML
的开发使用了Xerces Native Interface (XNI),后者是Xerces2的实现基础。
?
从NekoHTML
主页上下载nekohtml
-latest.zip,目前版本是0.8.
NekoHTML
要求运行在java1.1或更高版本,Xerces-J 2.0或更高版本。(我在试用时,随便拿了个xerces的包来用,结果例如运行老时不能通过,折腾半天后才发现版本不够所致.:)
1、透明地创建HTML解析器
利用Xerces2.0为基础,应用程序通过JAXP实例化解析器对象时,可以透明地创建HTML解析器,此时只需要将NekoHTML
的
jar文件,在CLASSPATH中放在Xerces的jar文件之前即可。nekohtmlXni.jar中的META-INF/services
/org.apache.xerces.xni.parser.XMLParserConfiguration文件会被Xerces的读取并取代标准的设
置文件,此处org.apache.xerces.xni.parser.XMLParserConfiguration文件的内容就是一个字符串
“org.cyberneko.html.HTMLConfiguration”。这种方法的好处是简单透明,缺点是影响了Xerces在其它情况下的使
用。
2、便利的HTML解析器类
要想避免上述的问题,可以使用org.cyberneko.html.parsers包的DOM和SAX解
析器类来创建解析器,这两个类都使用了HTMLConfiguration类。解析器一旦创建之后,就可以解析HTML文件,并用标准的XML接口来访问
文件中的信息,就象面对的是一个XML文件一样。
下面的代码是NekoHTML
自带的例程,我改了一下,使其可以显示HTML文件内容,而不显示类的名字。
package sample;import org.cyberneko.html.parsers.DOMParser; import org.w3c.dom.Document; import org.w3c.dom.Node;
public class TestHTMLDOM { public static void main(String[] argv) throws Exception { DOMParser parser = new DOMParser(); for (int i = 0; i < argv.length; i++) { parser.parse(argv[i]); print(parser.getDocument(), ""); } } public static void print(Node node, String indent) { // System.out.println(indent+node.getClass().getName()); if (node.getNodeValue() != null){ if("".equals(node.getNodeValue().trim())){ }else{ System.out.print(indent); System.out.println(node.getNodeValue()); } } Node child = node.getFirstChild(); while (child != null) { print(child, indent+" "); child = child.getNextSibling(); } } }
编译运行如下:
如果一切正常可以显示HTML的内容了。
3、文档
片段解析
除了DOM和SAX类,NekoHTML
还
提供了一个实验性质的DOMFragmentParser类,用以解析HTML文件的片段。我个人认为,由于浏览器的强大的容错能力,即使一个片段的
HTML文件,也可以正确显示,由此也变相地造成了很多人不再关心的HTML的完整要求了。这个类,也许将是用的最多的。下面,看看nutch是如何使用nekoHTML
的。
package net.nutch.fetcher; ... import org.cyberneko.html.parsers.*; import org.xml.sax.*; import org.w3c.dom.