java读取网页封存之后都是乱码-Java教程-爱易网页

java读取网页封存之后都是乱码

日期：2014-05-20　浏览次数：21136 次

java读取网页保存之后都是乱码
我用java读取一个网站的源码，但是获取到的源码都是乱码，由于事先不清楚网站的URL也就是说不清楚网站的编码，所以下面的建议不要和我说。

Java code


URL url = new URL(baseUrl);
BufferedReader buff = new BufferedReader(new InputStreamReader(url.openStream()), charSet);
StringBuilder sb = new StringBuilder();
String s;
while((s = buff.readLine()) != null){
  sb.append(s);
}
return sb.toString();

上面的代码我相信大家都知道，但是正如我上面所说，我不知道人家要访问什么网站，所以固定的字符集是不可能的！有些网站是utf-8编码、有的是GB2312/GBK编码、有些还是BIG5编码。我该怎么处理？

------解决方案--------------------

Java code


URL url =  new URL("http://www.baidu.com");
        BufferedReader buff  = new BufferedReader(new InputStreamReader(url.openStream()));
        StringBuilder sb = new StringBuilder();
        String s = null;
            while((s = buff.readLine()) != null){
              sb.append(s+"\n");
            }
        System.out.println(sb);

------解决方案--------------------
应该用：
URLConnection cn = url.openConnection();

然后在从头信息中获取其字符集设置：
cn.getContentEncoding();

------解决方案--------------------
探讨

应该用：
URLConnection cn = url.openConnection();

然后在从头信息中获取其字符集设置：
cn.getContentEncoding();


------解决方案--------------------
探讨

引用:

Java code

URL url =  new URL("http://www.baidu.com");
BufferedReader buff  = new BufferedReader(new InputStreamReader(url.openStream()));
StringBuilder sb = new StringBuilder();
……


------解决方案--------------------
哦，很多网站不直接写这个 HTTP-HEAD 信息，看来你只能用另一个函数了，然后再自己解析：

System.out.println(conn.getContentType());

输出：
text/html;charset=gbk

你要自己拆解下。。。

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

java读取网页封存之后都是乱码

相关资料更多>

推荐阅读更多>