一个关于java URL这个类的用法的有关问题，读中文的有关问题-Java教程-爱易网页

一个关于java URL这个类的用法的有关问题，读中文的有关问题

日期：2014-05-18　浏览次数：21145 次

一个关于java URL这个类的用法的问题，读中文的问题
我的问题是，我用如下的方法读取一个html网页的代码，但是读出中文之后，我去查询是否包含某个特定的字符串的时候，总是提示不存在，英文就没问题
不知道是不是编码的问题啊？
谁能帮我解决一下啊？

URL conn = new URL( "http://news.163.com/world/ ");
InputStream in = conn.openStream();

int n = 0;
InputStreamReader isr = new InputStreamReader(in, "gbk ");
char[] ch = new char[1024];

//StringBuffer sb = new StringBuffer(2000);
String content = " ";
//boolean flag = false;
Pattern p = Pattern.compile( ".*  .* ");
Matcher matcher = null;
while ((n = isr.read(ch)) > 0) {
//isr.read(ch);
content = String.valueOf(ch);
matcher = p.matcher(content);
if (matcher.find())
System.out.println( "yes ");
}
isr.close();
in.close();
// Pattern p = Pattern.compile( ".*  .* ");
// Matcher m = p.matcher( "士大  夫 ");
// if (m.find())
// System.out.println( "yes ");
//System.out.println(content);
} catch (Exception e) {
e.printStackTrace();
}

------解决方案--------------------
也许是两点你没有注意到
1、你这个文件本身的编码是什么
2、下载的那个网页编码是什么
3、InputStreamReader isr = new InputStreamReader(in, "gbk ");这一句指定的编码是什么
最重要的是2和3，如果不一致的话，中文是拿不到的
http://news.163.com/world/ 这个网页的编码是GB2312的，你用GBK应该没有问题

问题应该出在你这个类的文件本身的编码上，改成GBK，或者GB2312就可以了

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

相关资料更多>

struts2中用session遇到的一点有关问题

新手求帮助：dreamwaver中用vbs的简单有关问题，请帮忙

复制的一个SSH框架的web工程并批改，运行时url地址还是之前的那个，在哪更改

像这么的设计是一种怎样的设计模式

小弟我再问下servlet是如何配置的吧，上次小弟我自己好像没有说清楚，有热心朋友帮助但是还是没有解决

添加数据后，jtable的表如何更新显示？请高手帮忙！

数组查找的有关问题

怎样提高系统访问速度？解决思路

关于JDBC连接SQL Server的2个有关问题

一个关于java URL这个类的用法的有关问题，读中文的有关问题

相关资料更多>

推荐阅读更多>