由编码识别遇到有关问题，思考utf8编码正则表达式（php版本）-PHP教程-爱易网页

起因：

最近遇到一件事情，一个接口能够接收传入编码可能是utf-8,gbk 两种。做过编码方面转换的同学应该知道的，是什么编码不会在字符串里面有什么标记位的。不过utf-8编码有特殊性，因此可以通过正则表达式来检查。只要发现是utf-8编码。就转换，不是utf-8就当gbk处理。编码一些常见问题可以查看：由web程序出现乱码开始挖掘(Bom头、字符集与乱码）

行动：

知道这个原理，马上领任务，开始工作。想到php版本有个mbstring模块可以进行编码检测转换：

<?php
//当前编码是gbk
$str="中国";
$aStrList=array($str,iconv('gbk','utf-8',$str));

foreach ($aStrList as $v)
{
	echo mb_convert_encoding($v,'gbk','utf-8,gbk'),"\r\n";
}

运行结果：

两个不同编码的“中国”，用一个函数mb_convert_encoding就可以自动转换成gbk编码。首页，尝试用utf-8解码，如果出现问题，就会用gbk转码。看来问题解决了，哈哈，可以交差了……

问题：

发布后，平静了几天，突然接到反馈：有中文：”袁小”解码出错。⊙﹏⊙b汗 …… ,想……(难道php内置检测模块有问题，或是我哪里欠缺……)

⊙﹏⊙b汗……  看来果然有问题，查询手册：mbstring 模块编码检查，只是识别字符串部分编码，发现与某个字符集匹配上，就认为它属于那种编码。 这不属于它的bug,因为字符串本身没有编码信息标识，没有那个语言能够完全检测通过。

问题：

能不能自己写一个检查正则表达式看下到底怎么样呢？要写正则表达式，首先须了解utf8编码规范，查看：http://zh.wikipedia.org/zh/UTF-8?

目前编码集合只有这样6个维度：php得到维度代码

<?php
//得到utf8字编码各个维度的范围 
echo base_convert('1111111',2,16),"\r\n";//维度1
echo base_convert('10000000',2,16),base_convert('10111111',2,16),"\r\n";

echo base_convert('

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

由编码识别遇到有关问题，思考utf8编码正则表达式（php版本）

相关资料更多>

推荐阅读更多>