日期:2014-05-18  浏览次数:20786 次

如何测出一段乱码是属于什么编码
例如下列乱码是什么编码:

涓浗绉戞妧璁烘枃鍦 ㄧ嚎-鐢ㄦ埛婵€娲\0

------解决方案--------------------
繁体字乱码,可以用utf8转换一下
------解决方案--------------------
建立一个常用字表,比如“的”等等,也可以包括最常用的800个汉字,

然后建立这个常用字表的各个编码表,比如gbk,gb2312等,

然后测试文本的编码中,匹配这个常用字编码的命中;率,比如gbk命中率是10%,gb2312是8%,那么就应该是gbk,

取命中率最高的,

------解决方案--------------------
做得好的,还可以用常用词汇表,比如“我们”,“中国”等,最常用的1000个词汇,同样计算文本的命中率,

------解决方案--------------------
互相兼容的编码,比如gbk和gb2312,可以用专门编码来测试,比如gbk中包含了gb2312中没有包括的一些字的编码,就用这些字中的最常用的来测试,