日期:2014-05-16  浏览次数:20879 次

Apache Solr 初级教程(介绍、安装部署、Java接口、中文分词)

Apache Solr 介绍

Solr 是什么?

  Solr 是一个开源的企业级搜索服务器,底层使用易于扩展和修改的Java 来实现。服务器通信使用标准的HTTP 和XML,所以如果使用Solr 了解Java 技术会有用却不是必须的要求。

  Solr 主要特性有:强大的全文检索功能,高亮显示检索结果,动态集群,数据库接口和电子文档(Word ,PDF 等)的处理。而且Solr 具有高度的可扩展,支持分布搜索和索引的复制。

Lucene 是什么?

  Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。

  目前已经有很多应用程序的搜索功能是基于 Lucene ,比如 Eclipse 帮助系统的搜索功能。Lucene 能够为文本类型的数据建立索引,所以你只要把你要索引的数据格式转化的文本格式,Lucene 就能对你的文档进行索引和搜索。

Solr VS Lucene

  Solr 与Lucene 并不是竞争对立关系,恰恰相反Solr 依存于Lucene ,因为Solr 底层的核心技术是使用Apache Lucene 来实现的,简单的说Solr 是Lucene 的服务器化。需要注意的是Solr 并不是简单的对Lucene 进行封装,它所提供的大部分功能都区别于Lucene 。

安装搭建Solr

安装 Java 虚拟机

  Solr 必须运行在Java1.5 或更高版本的Java 虚拟机中,运行标准Solr 服务只需要安装JRE 即可,但如果需要扩展功能或编译源码则需要下载JDK 来完成。可以通过下面的地址下载所需JDK 或JRE :

  • OpenJDK (?http://java.sun.com/j2se/downloads.html?
  • Sun (http://java.sun.com/j2se/downloads.html?
  • IBM (http://www.ibm.com/developerworks/java/jdk/?
  • Oracle (http://www.oracle.com/technology/products/jrockit/index.html?)安装 步骤请参考相应的帮助文档。

安装中间件

  Solr 可以运行在任何Java 中间件中,下面将以开源Apache Tomcat 为例讲解Solr 的安装、配置与基本使用。本文使用Tomcat5.5 解压版进行演示,可在下面地址下载最新版本http://tomcat.apache.org/download-55.cgi

安装Apache Solr

下载最新的Solr

  本文发布时Solr1.4 为最新的版本,下文介绍内容均针对该版本,如与Solr 最新版本有出入请以官方网站内容为准。Solr官方网站下载地址:http://www.apache.org/dyn/closer.cgi/lucene/solr/

Solr 程序包 的目录结构

  • build :在solr 构建过程中放置已编译文件的目录。

  • client :包含了一些特定语言调用Solr 的API 客户端程序,目前只有Ruby 可供选择,Java 客户端叫SolrJ 在src/solrj 中可以找到。

  • dist :存放Solr 构建完成的JAR 文件、WAR 文件和Solr 依赖的JAR 文件。

  • example :是一个安装好的Jetty 中间件,其中包括一些样本数据和Solr 的配置信息。

    • example/etc :Jetty 的配置文件。

    • example/multicore :当安装Slor multicore 时,用来放置多个Solr 主目录。

    • example/solr :默认安装时一个Solr 的主目录。

    • example/webapps :Solr 的WAR 文件部署在这里。

  • src :Solr 相关源码。