怎么提取html中的文本-Java教程-爱易网页

怎么提取html中的文本

日期：2014-05-20　浏览次数：20814 次

如何提取html中的文本？
RT,我想做一个将html文件转换为text文本的程序.
我希能实现：对一个html中的文本，我用程序转换得到的结果与用IE打开后用CTRL+C得到的基本一致。

我写了如下代码:
import javax.swing.text.*;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;
import java.io.*;

public class ParserTest{
public static void main(String[] args)throws Throwable{
Reader r =new StringReader( " <html> <body> A  B </body> </html> ");
ParserCallback pc =new ParserCallback(System.out);
HTMLEditorKit.Parser p =new ParserGetter().getParser();
p.parse(r,pc,true);
}
}
class ParserCallback extends HTMLEditorKit.ParserCallback{
private PrintStream ps;
public ParserCallback(PrintStream ps){
this.ps =ps;
}
public void handleText(char[] text,int position){
ps.println(text);
}
}
class ParserGetter extends HTMLEditorKit{
//purely to make this method public
public HTMLEditorKit.Parser getParser(){
return super.getParser();
}
}

但是程序的输出是:
A??B

但我期望的应该是:
A B

谁能告诉我这是为什么?如何解决?
或者有其他更好的方法实现我的需求?

------解决方案--------------------
特殊字符需要替换，如空格， < > 等。
复杂的html推荐使用正则表达式。
------解决方案--------------------
你用替换方法将??替换为空格就可以了

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

怎么提取html中的文本

相关资料更多>

推荐阅读更多>