HBase处置中文字符串-数据库教程-爱易网页

日期：2014-05-16　浏览次数：20598 次

HBase处理中文字符串

转载请注明出处，谢谢。

Author:Pirate Leo

Email:codeevoship@gmail.com

———————————————

在设置scan的startRowKey与endRowKey时，经常需要在某个条件字符串后面补充出一个范围。（SingleColumnValueFilter也会用到）

比如：我的条件字符串是“abc”，scan时我需要将下述内容都囊括到我scan的范围内。

abc123

abcdabc

abccca

....

这时候我startRowKey使用“abc”即可，上述字符串按字典序都比“abc”要大，“abc”串c之后的值是0嘛~

而endRowKey最初我使用了“abc~”，因为我查ASCII码表时‘~’是倒数第二个，值为127，足够大，肯定大于上述串中的1、d、c等字符。

这样做，在处理英文数据时就足够了，系统运行正常。

但当我处理中文数据时，中文一般都是以UTF-8格式处理的，一个汉字表示出来类似“0xe6，0xc2，0xe1”。0xe6大于127。所以使用‘~’遇到中文必然悲催。

我的解决方法：

使用UltraEdit，进入十六进制编辑模式，将值改为FF。然后回到文本模式，将刚才的字符复制下来。这个字符应该是一个不可显示的字符，看着好像两个空格的长度。

然后在设置endRowKey时

new String(name + " "); //这里只是示例，引号间就是刚才复制的那个字符。将这个字符串作为endRowKey，果然所有的中文字符就囊括在内了。

另外一定要注意：使用HBase API时不要使用str.getBytes将String转化为byte[] ，而应该使用Bytes.toBytes(str)；同样使用Bytes.toString(bytes);完成逆向转换。

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。