日期:2014-05-20  浏览次数:20677 次

求查询文本中乱码的解决方案 在线等
最近,处理的TXT文本中经常会出现几个乱码句子,想写个程序识别文档中的乱码。我尝试了一些方法,在Unicode编码表

中找到了中文对应的字符区间,ASCII英文、标点字符区间,中文全角标点区间等。逐个字符的判断,如果该字符对应的

Unicode编码不在以上的区间内,认为它是乱码。但该方法查询的结果显然不能让人满意,问题如下:

1. 有些乱码是以?的形式表现的,目前无法识别。

2. 有些乱码字符是生僻汉字,还是属于Unicode中文区间,被识别为非乱码。
还请各位路过的朋友给些识别乱码的意见。

注:我并不是要修复文本中的乱码,只要能检索出乱码位置就好。



------解决方案--------------------
1.如果有的不可识别字符本身就是以"?"存储在文件中的,那你确实没办法再判断了。但如果本身字节码没有问题,那你可以用你的代码来判断。
2.对于生僻汉字,如果显示乱码,那是你的字符集不全,或者说你的编辑器的字符集不全。你可以换其他编辑器或者安装字符集(你可以试试用Microsoft word打开试试)。


------解决方案--------------------

深入分析 Java 中的中文编码问题