100分有关问题,关于utf-8编码中汉字的有关问题-ASP教程-爱易网页

100分有关问题,关于utf-8编码中汉字的有关问题

日期：2014-05-17　浏览次数：21236 次

100分问题,关于utf-8编码中汉字的问题
如题,想精确截取utf-8编码中指定长度的中英文字符串,但好像该编码中汉字和英文的长度都一样为1,如何判断utf-8编码中的某字符是汉字?

------解决方案--------------------
有一定范围的。。。至于是多少就不知道了。
------解决方案--------------------
帮顶一下学习
------解决方案--------------------
up.
------解决方案--------------------
utf-8为1－3字节编码，其中ascii兼容字符为1个字节，其他字符为2－3个字节。

简体中文为3个字节，表示为1110aaaa-10bbbbbb-10cccccc，其中的aaaabbbbbbcccccc组合起来就是改编码的unicode形式

对于字符统计，可以用midb读取，然后判断起首位是否为零，为零则是英文字符。假设英文字符总数为AsciiCount,则汉字字符为(lenb-AsciiCount)/3
------解决方案--------------------
http://community.csdn.net/Expert/topic/5354/5354620.xml?temp=.2699243

function cut_str($sourcestr,$cutlength)
{
$returnstr= ' ';
$i=0;
$n=0;
$str_length=strlen($sourcestr);//字符串的字节数
while (($n <$cutlength) and ($i <=$str_length))
{
$temp_str=substr($sourcestr,$i,1);
$ascnum=Ord($temp_str);//得到字符串中第$i位字符的ascii码
if ($ascnum> =224) //如果ASCII位高与224，
{
$returnstr=$returnstr.substr($sourcestr,$i,3); //根据UTF-8编码规范，将3个连续的字符计为单个字符
$i=$i+3; //实际Byte计为3
$n++; //字串长度计1
}
elseif ($ascnum> =192) //如果ASCII位高与192，
{
$returnstr=$returnstr.substr($sourcestr,$i,2); //根据UTF-8编码规范，将2个连续的字符计为单个字符
$i=$i+2; //实际Byte计为2
$n++; //字串长度计1
}
elseif ($ascnum> =65 && $ascnum <=90) //如果是大写字母，
{
$returnstr=$returnstr.substr($sourcestr,$i,1);
$i=$i+1; //实际的Byte数仍计1个
$n++; //但考虑整体美观，大写字母计成一个高位字符
}
else //其他情况下，包括小写字母和半角标点符号，
{
$returnstr=$returnstr.substr($sourcestr,$i,1);
$i=$i+1; //实际的Byte数计1个
$n=$n+0.5; //小写字母和半角标点等与半个高位字符宽...
}
}
if ($str_length> $cutlength){
$returnstr = $returnstr . "... ";//超过长度时在尾处加上省略号
}
return $returnstr;

}

网上找到的.我用过不错,我编程都是UTF8的
------解决方案--------------------
mark
------解决方案--------------------
喔，不错啊，编程都用UTF8。我一直都还在用GB2312
------解决方案--------------------
推荐搂主：
http://www.regexlab.com/zh/encoding.htm

搂主所说的 "汉字和英文的长度都一样为1 " 实际上是 asp 的内部码，就是 "UnicodeLittle 编码 "，不是 utf8 编码。

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

100分有关问题,关于utf-8编码中汉字的有关问题

相关资料更多>

推荐阅读更多>