日期:2014-05-20  浏览次数:20802 次

如何读取html文件
我在做一个程序,将html存为指定的格式。请教高手,如何读取html文件?是读它的源代码吗?

------解决方案--------------------
先把你的HTML文件定义为一个模板。比如标题定义为#title#,然生用public String replaceAll(String regex, String replacement)替换 "# "
------解决方案--------------------
刚好前阵子也在做这方面的应用,给你个方向```用NekoHTML

下面是抄来的简介````用起来还不错,就是麻烦点,我在节点里跳来跳去的``头很晕~~~~~

Andrew Clark用Java写了一系列的工具(Java APIs),NekoHTML是其中之一。
  NekoHTML是一个简单地HTML扫描器和标签补偿器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能投扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档过程中常犯的错误。NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素,以及不匹配的内嵌元素标签。NekoHTML的开发使用了Xerces Native Interface (XNI),后者是Xerces2的实现基础。