日期:2014-05-16 浏览次数:20872 次
??? 昨天一位同事问到一个问题,他的MySQL中导入数据的时候,发现唯一索引冲突,原因是有两行记录,区别只是有一条记录多了最后的一个空格。? 希望有方法将他们设置不同。
?
?? 复现:
???? CREATE TABLE `t` (
? `c` varchar(20) NOT NULL DEFAULT '',
? PRIMARY KEY (`c`)
) ENGINE=InnoDB DEFAULT CHARSET=gbk;
?
?? insert into t(c) values("A");
?? insert into t(c) values("A ");
?
???在执行第二个insert的时候,会报主键冲突。?
?? 虽然设置为binary可以做到这点,但是改变了大小写敏感的问题,因此不是理想方法。
?
?? 原因:
gbk字符串判断时,用的是这个函数 my_strnncollsp_gbk (strings/ctype-gbk.c)
?? 简单逻辑如下
?
size_t length= min(a_length, b_length); int res= my_strnncoll_gbk_internal(&a, &b, length); #ifndef VARCHAR_WITH_DIFF_ENDSPACE_ARE_DIFFERENT_FOR_UNIQUE diff_if_only_endspace_difference= 0; #endif if (!res && a_length != b_length) { if (diff_if_only_endspace_difference) res= 1; .... } return res;
?
?? 从代码上看,没有什么问题,逻辑是先用比较小的算出长度,然后作字符串对比,此时认为相同。然后根据宏定义,如果没有加编译参数VARCHAR_WITH_DIFF_ENDSPACE_ARE_DIFFERENT_FOR_UNIQUE???,则diff_if_only_endspace_difference为0,因此当两个字符串只区别于末尾的空格个数时,认为字符串相同。?
? (不用担心'A' 和 'AB'对比的情况, 省略号部分作了这个判断的)
?
?
? 但是这个在5.0中新增的编译参数并没有用!!
原因是InnoDB在调用这个函数的时候,diff_if_only_endspace_difference传的就是0。
? 也就是说,你就算加了这个编译参数,行为并没有改变, 没有把这个值设置为1的代码 。
??
?
? 方案:
??? a) 比较优美的方案是是把InnoDB中调用处传入的diff_if_only_endspace_difference, 也改成按照VARCHAR_WITH_DIFF_ENDSPACE_ARE_DIFFERENT_FOR_UNIQUE???来决定0还是1。
?
??? b) 比较简单的方案是将上面代码中的宏定义这段改写成意思相同的ifdef写法,
#ifdef VARCHAR_WITH_DIFF_ENDSPACE_ARE_DIFFERENT_FOR_UNIQUE diff_if_only_endspace_difference= 1; #endif
?
?
?