代码点、代码单元、辅助字符有关问题-Java教程-爱易网页

代码点、代码单元、辅助字符有关问题

日期：2014-05-20　浏览次数：21204 次

代码点、代码单元、辅助字符问题
'java字符串是有char序列组成。'问：这个命题是否成立？
常用的Unicode字符使用一个代码单元就可以表示，而辅助字符需要一对代码单元表示。
代码单元是什么？代码点是什么？

Java code

public static void main(String[] args) {
        String str = "中文aA";
        for(int i=0;;){
            if(i<str.length()){
                int cp = str.codePointAt(i);
                System.out.println((char)cp +"--"+ cp);
                if(Character.isSupplementaryCodePoint(cp)){
                    i += 2;
                }else{
                    i += 1;
                }
            }else{
                break;
            }
            
        }
        
    }

运行结果：
中--20013
文--25991
a--97
A--65

41在什么情况下表示A？

------解决方案--------------------
41在什么情况下表示A？

0x41->65->A
------解决方案--------------------
不是任何情况下 0x41 都能代表 A，要看字符集和前一个码是什么，有可能 0x41 只是某个双码或三码字符的后半部分。

“java字符串是由char序列组成”这个我认为基本正确。
------解决方案--------------------

探讨

引用:

不是任何情况下 0x41 都能代表 A，要看字符集和前一个码是什么，有可能 0x41 只是某个双码或三码字符的后半部分。

“java字符串是由char序列组成”这个我认为基本正确。

嗯，跟编码格式有关系，是应该这么理解。
一个字符就是一个代码单元（特殊字符：多个代码单元），
代码点：就是表示这个字符的某种编码格式下对应的那个编码（16进制）。
……

------解决方案--------------------
UNICODE共定义了0x10FFF也就是1,114,111个代码点，如果每个代码点与一个字符定义的话，最多可以包容一百多万个字符。但是目前只用了一部分，也就是说有一部分位置（代码点）被占了。
你看到的
中--20013
文--25991
a--97
A--65

数字就是表示的这些被占的位置（编号）
代码单元是跟具体编码方式相关的概念，比如UTF-32，就是用固定的32位(3字节)作为一个代码单元，而UTF-8则是用1个字节～6个字节作为一个代码单元，因为不定长，所以必须有些约定，如3字节的时候，一定是1110 XXXX 10XX XXXX 10XX XXXX ，实际可用的位数为4+6+6=16位，相当于2个字节。

汉字在UTF-8里面是3字节，比如“中”，代码位是20013，那么16进制是0x4E2D，二进制是100111000101101
你把这16位对应插入前面的X上，就是“中”的UTF-8码了。

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

代码点、代码单元、辅助字符有关问题

相关资料更多>

推荐阅读更多>