关于关键字分词的问题
是这样,我有一个搜索是这样的,用户可能输入
一个关键字或
多个关键字,而多个关键字可能是由空格分开的,也可能是
连在一起的。
另外,我的数据库有个特点,条数特别多,会超过上百万条,但每条的内容并不多,通常是几个字到十个字。也就是说,用户输入的关键字需要匹配的对象量虽然大,但每条却很简单。
如果是只有一个关键字,或者用空格分开的关键字的话,我这里还比较好查询,直接用=或者like 'value%'匹配即可。
但如果用户是输入的没有空格的连在一起的多个关键字,我应该怎么去分词呢?
我有一个想法是把关键字按2个或者3个的方式去分割,然后一股脑的全拿到数据库匹配去,但这个是大家都在用的方法吗?
有更先进更实惠的方法吗?
谢谢!
------解决方案--------------------利用中文分词系统处理,根据返回值, 再进入数据库搜索数据
------解决方案--------------------有一个很强大的开源汉语分词系统。
资料:http://ictclas.org/index.html
------解决方案--------------------lucene 把数据库数据生成索引,中中文分词查询,你这么用数据库查询不好