如何测出一段乱码是属于什么编码
例如下列乱码是什么编码:
涓浗绉戞妧璁烘枃鍦 ㄧ嚎-鐢ㄦ埛婵€娲\0
------解决方案--------------------繁体字乱码,可以用utf8转换一下
------解决方案--------------------建立一个常用字表,比如“的”等等,也可以包括最常用的800个汉字,
然后建立这个常用字表的各个编码表,比如gbk,gb2312等,
然后测试文本的编码中,匹配这个常用字编码的命中;率,比如gbk命中率是10%,gb2312是8%,那么就应该是gbk,
取命中率最高的,
------解决方案--------------------做得好的,还可以用常用词汇表,比如“我们”,“中国”等,最常用的1000个词汇,同样计算文本的命中率,
------解决方案--------------------互相兼容的编码,比如gbk和gb2312,可以用专门编码来测试,比如gbk中包含了gb2312中没有包括的一些字的编码,就用这些字中的最常用的来测试,