日期:2014-05-17  浏览次数:21047 次

全文检索学习及Apache SOLR的使用探索

最近,由于工作需要,准备在项目中搭建一个全文检索系统,预期实现的功能基本上与目前流行的全文检索别无二致。主要是提供给用户普通检索与高级检索的两种方式,可以实现根据发布内容时间排序,统计,等等相关的功能。

因为公司目前没有相关的产品同时客户给出的需求也是模棱两可,所以只能参考其他网站的功能来进行简单的需求分析。苦于之前没有接触过相关知识,并且选用的Apache SOLR开源服务器也没有详细的中文教程,做起来还是蛮吃力的,不过好在SOLR的官方文档比较详细,其在开源社区的活跃度也蛮高,如果用心去读官方文档的话还是受益良多的,而且一般的问题都是可以解决的。废话不多说,下面列出一个从开始学习全文检索到使用SOLR来开发自己的全文检索应用的一个大致过程,希望对各位需要学习相关知识的却苦于摸不着头脑的朋友有所帮助。

?

1.全文检索基础

如果你不是想要深入研究,而是像我一样急功近利的话,这里大概需要1-2天的时间看看就可以,你需要了解的知识点是:什么是全文检索,全文检索中的一些基本概念,其实就是多了解底层的一些术语,因为在后期开发的过程中这些术语会经常用到,如果你不了解,那就很吃亏。这里不用太多的时间就可以搞定。

2.Lucene

Lucene是神马,如果你想要做全文检索的话,这个自然不用多说,其实在我还没接触全文检索的时候,大名鼎鼎的Lucene就已是如雷贯耳,当然,也仅仅是这样,当我真正的要去学习的时候才发现,哦,原来这个家伙是这么牛逼。不过同上一样,如果你不是真的准备自己来手工编写包括建立索引,查询等等相关的底层功能的话,我的建议是这里花费1-2天的时间看看即可,因为当你了解到后续的SOLR是如何强大的时候,你会对你在Lucene花费的时间过多而懊悔不已。当然,我就是这样的。当我刚学了Lucene曾自己写了一个建立索引的工具,不过无论我如何去修改线程及优化内存,始终达不到SOLR那样的效率及便利性,当然这是后话。当时40W的数据建立起索引大概需要将近20分钟,而同样的使用SOLR时间几乎缩短的了一半,并且在处理数据库的CLOB大字段时,也不会有内存溢出等让人抓狂的事情发生。

3.SOLR

可能有些人在接触SOLR之前都听说过Compass,比如我,当然我仅仅是在一些相关的教程中听说过却并没有真正的用到过他。所以没有办法比较这两者之间差异,我想同是开源软件应该各有千秋吧。由于本文仅仅是想要列一个提纲,给希望学习的人一些帮助,SOLR的详细内容会在后续的文章里慢慢介绍,这里只写一个大致的学习过程, 首先,需要了解的是SOLR是干什么用的,作为一个服务器需要如何配置,怎样启动,如何通过配置文件来建立数据库内容的索引(这里插一句,我认为大多数系统可能都是需要针对数据库的数据来建立索引的,当然,SOLR可以提供的建立索引内容不不仅仅是数据库,还包括了XML,JSON甚至真正的文档比如Word,PDF等,当然这些我没用过,所以可以根据自己的实际需求来了解相关文档如何去建立索引),还有需要学习查询,SOLR可以提供的查询是比较丰富的,包括了基本的查询,分组,结果过滤,排序及统计等功能,这些在其官网的WIKI中有比较详细的介绍,可以自行查找。值得一提的是,之前在我自己写的基于Lucene的建立索引工具中数据库CLOB字段的建立确实很让人头疼,不但拖慢了创建索引的时间,还拖垮了系统(经常会内存溢出),当时是为了解决这个问题才想到了要使用一些现有应用的,也就找到了SOLR,SLOR对于CLOB的支持真的是太好了,你只需要在数据源配置的data-config.xml文件中配置clob=true即可提供对大字段的支持,这真的是太牛逼了。

4.SOLRJ

是的,你没看错就是SOLRJ,这是SOLR提供的一个基于Java的Client包,在你下载的SOLR的包内就能找到,以及该包所依赖的全部类库,有了这个包,你几乎可以在你的Client程序中对如何连接SOLR服务器,如何创建查询条件,如何获取查询结果等这样的细节问题视而不见,因为这个包里提供的方法基本可以覆盖你的Client程序,你需要做的仅仅是把这个包引如你的工程,然后将其进一步封装成你所需要的程序就可以了。他的一些实用方法有些类似于hiberante等这样的ORM框架,这么说当然并不准确,实际体验还是需要各位自己去体会的。

?

好了,基本上就是这些内容,剩下的就需要动手写你的客户程序了,不过有了SOLR的支持,我想整个过程会变的非常轻松。归纳一下整体的学习时间安排,前两项大概需要2-3天时间来完成,多了解了解基础,绝对是件好事,如果你像我一样对算法等具有恐惧感的话,就不要深挖了,然后在SOLR的学习过程中可能需要的时间比较多我觉得一周左右的时间还是够用的,作为一个服务端,合理的配置及优化绝对是对后期工作有决定性的帮助,如果你的索引每次在开发的时候都要进行修改,这绝对是一种浪费时间,无论SOLR有多么的强大,当然你也可以像我这样,趁着建立索引的空档写一篇口水文出来o(*≧▽≦)ツ,至于SOLRJ,我还是建议在你的客户端使用,这样减轻了好多不必要的劳动,重复造轮子可是大忌。

最后,感谢您舍得时间来看这篇烂文章(高考作文零分这件事我会乱讲?)。

?