日期:2014-05-16  浏览次数:20781 次

Linux下Java程序中文乱码问题

?

转载自: http://blog.chinaunix.net/u3/114157/showart_2245018.html

?

留着有空看

?

摘? 要:在一个项目的开发中,我用linux内核源代码和busybox源代码自己编译打造的操作系统mylinux 1.0 ,服务器是我用java语言自己编写的一个多线程的小服务器MyWebServer 2.0,其中的JSP编译器和“javax.servlet.*” API是我自己编写。本文结合我在该项目中对中文显示乱码处理的经验,论述了java语言在linux操作系统下中文乱码产生的原因和解决方法。

关键词:字符集;本地化;URL encode;URL decoder

中图分类号:TP312JA????? 文献标识码:A

Study on the Chinese Error Coding in the Java Programs on Linux

JIA Jin-ying1, JIA Jin-ying2

??????? (1.Pingdingshan City Branch Company of China Unicom ,Henan Pingdingshan 467300, 2.Manages Departyment of Hebei University 071002)

Key words:character set;locale;URL encode;URL decoder.
用java语言在微软的windows下,无论是基于awt(swing)的图形界面程序编写,还是基于B/S结构的JSP(Servlet)的系统开发,一般都不会遇到中文显示乱码,只有在URL传递中文参数时会出现乱码,但做过JSP项目的程序员都知道通过字符串的简单的重新编码就能得到原来的汉字,至于其内部原理大概所知到的人就不多了。然而在linux下做java项目的开发中文显示问题就复杂的多了,特别是在微软的windows下开发的系统直接拿到linux下运行一般就会出现中文乱码现像。一般开发人员都会通过将所有的程序源码文件别存为新的字符编码文件,或者通过在IDE中设置文档编码,然后在linux下重新编译整个项目,就能解决问题,然而为什么要这么做呢?下面就从字符编码说起来解释问题的本质。

1???????? 字符集

字符集(CHARACTER SET),或称字集,是指字符的集合;字符集种类较多,每个字符集包含的字符个数不同,常见的字符集名称:ASCII字符集、GB2312字符集、GB18030字符集、UNICODE字符集等。

1.1ASCII字符集

上个世纪60年代,美国有关的标准化组织就出台了ASCII(AMERICAN STANDARD CODE FOR INFORMATION INTERCHANGE:美国信息交换标准码)编码,制定了一套字符编码,只能表示256个符号,主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO 10646。

1.2GB系列字符集(GB2312、GB13000、GBK、GB18030)

GB2312由原中国国家标准总局发布,共收录6763个简体汉字、682个符号,由于GB2312定义的字符集太小,容纳的汉字太少,在UNICODE出台之后,我国立刻制定了完全兼容的GB13000标准,微软以技术上难以实现为理由,自己搞了一套扩展字符集,也就是GBK,在GB2312基础上定义了包括繁体字在内的更多汉字,并在WINDOWS简体中文版中加以实施。到了二十世纪末,GBK字符集也不够用了,WINDOWS操作系统将内核改为支持UNICODE字符集。UNICODE与GB系列字符集不兼容。于是我国政府于2000年3月17日发布的新的汉字编码国家标准GB18030,作为我国所有非手持/嵌入式计算机系统的强制实施标准,GB18030收录了27484个汉字,不但与UNICODE3.0版本兼容,还与以前的GB字符编码标准兼容。

2? 字符编码与字库

字符集只是文字的集合,不一定适合网络传送、处理。计算机要准确的处理各种字符集文字,有时须经编码(ENCODING)后才能应用。所谓字符编码是规定每个“字符”分别用一个字节还是多个字节存储,用哪些字节来存储,这个规定就叫做“编码”。各个国家和地区在制定编码标准的时候,“字符集”和“编码”一般都是同时制定的。因此,平常我们所说的“字符集”,比如GB2312、GBK等,除了有“字符的集合”这层含义外,同时也包含了“编码”的含义。对UNICODE字符集的编码称为UTF。目前通用的编码标准有UTF-16小尾序(LITTLE ENDIAN)、UTF-16大尾序(BIG ENDIAN)和UTF-8变长编码。

字库就是字型库(FONT LIBRARY),其实计算机上显示的每个字符(不管它是哪种语言的),都是一个小的图案。字库就是把这些小的图案以图片的某种形式保存起来,需要显示的时候还原出来就可以了。在WINDOWS操作系统里的字库存放在系统盘windows\fonts文件夹下,在linux操作系统中字库存放在这/usr/share/fonts/文件夹下。

3? Java语言中产生乱码的原因及解决方法

3.1基于awt(swing)的图形界面程序中文显示乱码

基于awt(swing)的图形界面程序中,一般会出现菜单中的中文显示乱码,其原因一般是JVM找不到用来显示中文的字库,JVM在原始的安装下是没有中文字库的,而linux的发行版本又各不相同,其字库存放的路径和名字又各不相同,所以JVM一般是找不到linux操作系统内带的字库,解决方法是让JVM能找到linux操作系统内带的字库,如在Redflag 6.0下可以通过下面命令解决:

mkdir /usr/java/jdk1.6.0/jre/lib/fonts/fallback

ln -s /usr/share/fonts/chinese/TrueType/*.ttf /usr/java/jdk1.6.0/jre/lib/fonts/fallback

一般不需要修改JRE/lib/目录下的字体配置文件(fontconfig.OS.Version.properties)。

3.2 基于B/S结构的JSP(Servlet)的系统用户端浏览器中文显示乱码

3.2.1页面中的中文显示乱码

对于像HTML的静态文件,其文件的字符集只要和文件中<meta http-equiv="Content-Type" content="text/html; charset=…… ">处所设置的一样即可。

对于像JSP和Servlet动态文件由于需要经过编译,在运行是由JVM解释class文件而产生用户端浏览器所需的HTML文件,如果产生中文乱码,则一般是由编译和运行过程中产生的。如果用商用的发行版Linux和服务器,一般只要将JSP或Servlet文件保存为UTF-8字符集,将<meta http-equiv = "Content-Type" content="text/html; charset=…… ">中设置为UTF-8即可。如果还出现乱码则可以通过以下方法解决:

①如果服务器是自主研发的,可以通过修改源代码,指定JVM读文件、写文件以及生成用户端浏览器所需的HTML文件时,字符串与二进制序列流转换时的编码方式,从而从根本上解决问题,增强服务器的适应性,在MyWebServer 2.0中,我就采用了这种方法,代码如下:

new BufferedReader(new InputStreamReader(new FileInputStream(jspfile),"GBK"));

new PrintWriter(serfile,"GBK");

new PrintWriter(new OutputStreamWriter(os,"GBK"));

②当然也可以在服务器的入口文件(即含有main子函数的文件)中修改JVM的“locale”设置,代码如下:

Locale.setDefault(new Locale(“zh”,”CN”));

③当采用商用服务器时,可以修改启动服务器的shell文件,在启动服务器前设置环境变量“export LC_ALL=zh_CN.UTF-8”,从而改变本控制台下默认的“locale”值。

④当然也可以修改操作系统的“locale”设置,但由于修改操作系统的“locale”设置将会影响到其他应用程序,所以一般采用该方法。

采用上述方法的主要原因是,当JVM在首次起动时,将会把操作系统的“locale”设置为JVM的默认“locale”,在操作系统没有设置“locale”值时(如mylinux 1.0),JVM将会把JVM的缺