luence中文搜索
最近在学习luence时,按照帮助文档以及各位前人的帖子,
能够实现如下功能:
一,能够真确的搜索出文章中含有的英文单词的文件。
存在的问题:
一,对中文文件不支持,想实现这一功能,看了一些文档及说明,基本上都是说自己重写analysis和search两个类,但是不会写,不知道从何入手。
二,想对数据库进行全文检索,但是不知道如何设置路径。
在此先谢谢大家!
------解决方案--------------------对数据库当然不能设置路径了。需要把数据库的内容读取出来,构造Document对象,然后写入索引。
看来你对luence的基本原理还没掌握,建议先看看luence in action.
中文问题估计是那个demo读取文本文件的时候编码设置问题。analyzer用StandardAnalyzer就可以,不过效果不太好,它是把中文按字切开的。
------解决方案--------------------关于中文的问题,你可以用中科院的ICTCLAS,我用的是这个,效果不错
另外一个是车东的2字分词,简单易用,但是2字分词,准确性很不好。
------解决方案--------------------有用TjuChineseAnalyzer中文分词器,比如:“计算机系统中”,这个分词结果是“计算机/n 系统/n 中/f ”,我想得到分词结果这样“计算机 系统 中 ”,应该怎么写呢?谢谢