Apache Lucene 3.x推荐课程-Access教程-爱易网页

Apache Lucene 3.x推荐课程

日期：2014-05-17　浏览次数：21083 次
Apache Lucene 3.x推荐教程
Apache Lucene 是一个基于 Java 的全文检索工具包，你可以利用它来为你的应用程序加入索引和检索功能。Lucene 目前是著名的 Apache Jakarta 家族中的一个开源项目，也是目前最为流行的基于 Java 开源全文检索工具包。

   

第一部分：概述

?我们在很多地方都可以看到搜索功能
?Windows系统中的有搜索功能：打开"我的电脑"，按"F3"就可以使用查找的功能，查找指定的文件或文件夹。搜索的范围是整个电脑中的文件资源。
?Eclipse中的帮助子系统：点击HelpàHelp Contents，可以查找出相关的帮助信息。搜索的范围是Eclipse的所有帮助文件。
?在BBS、BLOG等系统中提供的搜索文章的功能，如这里的贴吧的例子。搜索的范围是系统内的文章数据（都在数据库中）。
?搜索引擎，如Baidu或Google等，可以查询到互联网中的网页、PDF、DOC、PPT、图片、视频等。下图是使用百度搜索的效果：


 

以上的查询功能都类似。都是查询的文本内容，都是相同的查询方式，即找出含有指定字符串的资源，不同的只是查询范围（分别为硬盘、所有帮助文件、数据库、互联网）。

 

?什么是全文检索
对于搜索，按被搜索的资源类型，分为两种：可以转为文本的、多媒体类型。我们上一节提到的搜索功能都是搜索的可以转为文本的资源（第一种）。注意，百度或谷歌提供的音乐或视频搜索不是多媒体搜索，他们是按文件名搜索。在智能手机上有一款音乐搜索的软件，可以让他听10秒钟的音乐，然后他就能上网找出这段音乐的名称、演奏者等信息。这是多媒体搜索。

按搜索的方式，上一节提到的搜索功能都是不处理语义，只是找出包含指定词的所有资源（只对词进行匹配）。下图就是显示"中国的首都是哪里"这个搜索要求对应的结果，可以看到，是没有"北京"这个结果的，结果页面都是出现了这些词的网页：



 

全文检索（Full-Text Retrieval）是指以文本作为检索对象，找出含有指定词汇的文本。全面、准确和快速是衡量全文检索系统的关键指标。

关于全文检索，我们要知道：1，只处理文本。2，不处理语义。3，搜索时英文不区分大小写。4，结果列表有相关度排序。

在信息检索工具中，全文检索是最具通用性和实用性的。

?学完后能做什么
我们使用Lucene，主要是做站内搜索，即对一个系统内的资源进行搜索。如BBS、BLOG中的文章搜索，网上商店中的商品搜索等。使用Lucene的项目有Eclipse、Jira等。一般不做互联网中资源的搜索，因为不易获取与管理海量资源（专业搜索方向的公司除外）。

所以，学完Lucene后我们就可以为自已的系统增加全文检索的功能。跟这个学习内容相关的练习为：为"传智手播客贴吧"增加搜索其中的文章的功能。

?全文检索不同于数据库搜索
全文检索不同于数据库的SQL查询。（他们所解决的问题不一样，解决的方案也不一样，所以不应进行对比）。在数据库中的搜索就是使用SQL，如：SELECT * FROM t WHERE content like '%ant%'。这样会有如下问题：

?匹配效果：如搜索ant会搜索出planting。这样就会搜出很多无关的信息。
?相关度排序：查出的结果没有相关度排序，不知道我想要的结果在哪一页。我们在使用百度搜索时，一般不需要翻页，为什么？因为百度做了相关度排序：为每一条结果打一个分数，这条结果越符合搜索条件，得分就越高，叫做相关度得分，结果列表会按照这个分数由高到低排列，所以第1页的结果就是我们最想要的结果。
?全文检索的速度大大快于SQL的like搜索的速度。这是因为查询方式不同造成的，以查字典举例：数据库的like就是一页一页的翻，一行一行的找，而全文检索是先查目录，得到结果所在的页码，再直接翻到这一页。
 

所以数据库搜索不能替代全文检索。

?第二部分：入门
?基础概念1（HelloWorld前）
全文检索就如同ORM，是一个概念。ORM的框架有很多种：Hibernate、TopLink、iBatis等，我们之前学习的是Hibernate。同样的，全文检索领域中也有多种框架，Lucene就是其中的一个用开源的全文检索框架。

Lucene的主页为：http://lucene.apache.org/。本文档中所使用的Lucene为3.0.1的版本。以下两小节是Lucene中重要的概念。

?全文检索的工作流程
如果信息检索系统在用户发出了检索请求后再去互联网上找答案，根本无法在有限的时间内返回结果。所以要先把要检索的资源集合放到本地，并使用某种特定的结构存储，称为索引，这个索引的集合称为索引库。由于索引库的结构是按照专门为快速查询设计的，所以查询的速度非常快。我们每次搜索都是在本地的索引库中进行，如下图：



从图片上可以看出，我们不仅要搜索，还要保证数据集合与索引库的一致性。所以对于全文检索功能的开发，要做的有两个方面：索引库管理（维护索引库中的数据）、在索引库中进行搜索。而Lucene就是操作索引库的工具。

 

?使用Lucene的API操作索引库


索引库是一个目录，里面是一些二进制文件，就如同数据库，所有的数据也是以文件的形式存在文件系统中的。我们不能直接操作这些二进制文件，而是使用Lucene提供的API完成相应的操作，就像操作数据库应使用SQL语句一样。

对索引库的操作可以分为两种：管理与查询。管理索引库使用IndexWriter，从索引库中查询使用IndexSearcher。Lucene的数据结构为Document与Field。Document代表一条数据，Field代表数据中的一个属性。一个Document中有多个Field，Field的值为String型，因为Lucene只处理文本。

我们只需要把在我们的程序中的对象转成Document，就可以交给Lucene管理了，搜索的结果中的数据列表也是Document的集合。

有了这些概念，可以写HelloWorld了，其他的概念可以在写完HelloWorld后再进行说明。

 

?基础概念2（HelloWorld后）
?索引库结构——倒排序索引
我们需要对文档进行预处理，建立一种便于检索的数据结构，以此来提高信息检索的速度，这种数据结构就是索引。目前广泛使用的一种索引方式是倒排序索引。

倒排序索引的原理就如同查字典。要先查目录，得到数据对应的页码，在直接翻到指定的页码。不是在文章中找词，而是从目录中找词所在的文章。这需要在索引库中生成一个词汇表（目录），在词汇表中的每一个条记录都是类似于"词à所在文档的编号列表"的结构，记录了每一个出现过的单词，和单词出现的地方（哪些文档）。查询时先查词汇表，得到文档的编号，再直接取出相应的文档。



把数据转成指定格式放到索引库中的操作叫做建立索引。建立索引时，在把数据存到索引库后，再更新词汇表。进行搜索时，先从检索词汇表开始，然后找到相对应的文档。如果查询中仅包含一个关键词，则在词汇表中找到该单词，并取出他对应的文档就可以了。如果查询中包含多个关键词，则需要将各个单词检索出的记录进行合并再取出相应的文档记录。

如果词汇表中有一个词"传智播客"对应的文档编号列表为"1"。现在又有添加了一个包含"传智播客"的文档，则词汇表中的"传智播客"词后对应的编号列表变成了"1,2"。因为关键词的数量受实际语言的限制，所以不用担心词汇表会变的很大。

?索引文件的检索与维护，更新是先删除后创建
维护倒排索引有三个操作：添加、删除和更新文档。但是更新操作需要较高的代价。因为文档修改后（即使是很小的修改），就可能会造成文档中的很多的关键词的位置都发生了变化，这就需要频繁的读取和修改记录，这种代价是相当高的。因此，一般不进行真正的更新操作，而是使用"先删除，再创建"的方式代替更新操作。

?建立索引的执行过程（Store、Index）
在建立索引时，先要把文档存到索引库中，还要更新词汇表。如下图：



?我们做的操作：把数据对象转成相应的Document，其中的属性转为Field。
?我们做的操作：调用工具IndexWriter的addDocument(doc)，把Document添加到索引库中。
?Lucene做的操作：把文档存到索引库中，并自动指定一个内部编号，用来唯一标识这条数据。内部编号类似于这条数据的地址，在索引库内部的数据进行调整后，这个编号就可能会改变，同时词汇表中引用的编号也会做相应改变，以保证正确。但我们如果在外面引用了这个编号，前后两次去取，得到的可能不是同一个文档！所以内部编号最好只在内部用。
?Lucene做的操作：更新词汇表。把文本中的词找出并放到词汇表中，建立与文档的对应关系。要把哪些词放到词汇表中呢，也就是文本中包含哪些词呢？这就用到了一个叫做Analyzer（分词器）的工具。他的作用是把一段文本中的词按规则取出所包含的所有词。对应的是Analyzer类，这是一个抽象类，切分词的具体规则是由子类实现的，所以对于不同的语言（规则），要用不同的分词器。如下图：


    在把对象的属性转为Field时，相关代码为：doc.add(new Field("title", article.getTitle(), Store.YES, Index.ANALYZED))。第三与第四个参数的意思为：

枚举类型
 枚举常量
 说明
 
Store 
 NO
 不存
免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
Apache Lucene 3.x推荐课程

相关资料更多>

推荐阅读更多>