日期:2014-05-16  浏览次数:20485 次

有无快速的模糊匹配方法
在统计相关数据时,发现一些客户的名称存在或多或少一些字,导致无法进行完全匹配,剩下未完全匹配的名称能怎样进行匹配么?
比如客户:广东XXX公司,广东省XXX公司;北京XXX公司,北京XXX有限公司;河北XX科技有限公司,河北XX科有限公司;
其实他们分别是一样的,只不过有些字有出入,关键字没有统一的位置,完全是随意的。目前除了人工用关键字去查找辨别外,还有什么快速的处理方法么?数据量比较大,人工很惨的。
------解决方案--------------------
一般可以用sql server 全文检索技术来提高模糊匹配的速度的。
------解决方案--------------------
SQL SERVER 2005/2008全文索引实战讲解(一)
文章中有(二)的联接。

另外建议你在前端及sql端做好数据约束,比如让客户选择地区,硬性规定使用【广东省】而不让他们有选择【广东】这样的数据的机会。不然全文也不准确。
------解决方案--------------------
全文索引和分词技术。

不过这个也有很多局限性。
------解决方案--------------------
前期录入不准确后期会死人滴
------解决方案--------------------
这个问题 没有多好的办法 只能全文索引了