JAVA读取html，乱码有关问题-Java教程-爱易网页

JAVA读取html，乱码有关问题

日期：2014-05-20　浏览次数：20756 次

JAVA读取html，乱码问题
我想要读取一个网页，提取其中的某些信息，网页source code上有写

<meta http-equiv="Content-Type" content="text/html;charset=utf-8"/>

所以它是以utf-8编码的
之后html的source code

<li>

      Sergio Agüero

</li>

比如说我想提取Sergio Agüero这样的一个字符串，

String info = score.select("li").toString()

（这里score是li的上一层）
我只能得到Sergio Agüero，乱码。。就是字符ü读不出来。。
查了下论坛上提到过的一些其他方法，比如

String info = new String(score.select("li").toString().getBytes("UTF-8"), "UTF-8");

但可以得到的还是Sergio Agüero
也看到了



InputStreamReader insReader = new InputStreamReader(new FileInputStream(f), "UTF-8");

BufferedReader bufReader = new BufferedReader(insReader);

String line = new String();

while ((line = bufReader.readLine()) != null){

   System.out.println(line);

}

这种方法，但是由于我要读的html比较大，要提取的东西也比较多，所以我觉得一行行读取不是很现实。。。
初学html，不太会其他方法。。想问问大家utf-8编码的html怎么可以提取出Sergio Agüero这样的字符串？

------解决方案--------------------
这是字符实体引用，自己转换成对应的字符就行了，例如replaceAll("ü", "ü")。
http://zh.wikipedia.org/wiki/XML%E4%B8%8EHTML%E5%AD%97%E7%AC%A6%E5%AE%9E%E4%BD%93%E5%BC%95%E7%94%A8%E5%88%97%E8%A1%A8
这是 XML与HTML字符实体引用列表
------解决方案--------------------
我只知道这个解决方法。
这个不是乱码，只是网站采用的一种特殊字符的表示方式，中文不会用这个东西的。
另外想详细了解的话，可以看一下关于XML的字符引用相关的知识.

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

JAVA读取html，乱码有关问题

相关资料更多>

推荐阅读更多>