lucene 求海量数据,查询速度提升的方法以及关于搜索结果分组统计问题
如题:
1.问题1:如何在大数据量上提升查询速度,目前我项目中8亿个文档数,100GB索引文件。查询单一组词平均需要7秒左右,结果一般在1亿条左右(查询的中文)。求如何提升速度。
2,问题2: 关于lucene 3.3 后的分组统计问题。尤其是BlockGroupingCollector.java这个类的使用,关于该类涉及到的lastDocInBlock 这个filter 要怎么在建立索引的时候控制。
求真正的LUCENE 高手帮忙!!!项目急需。
------解决方案--------------------
关于数据切分,有垂直切分和水平切分。我说的是水平切分。用不着啥api。 建立索引的时候,八亿个文件散列一下,平均扔到10个索引库里面就得。
ParallelMultiSearcher gg一下,有很多例子,也不是说一定得用这个,找个思路就行了:)
至于网络通讯,是不是用rmi,看个人喜好了。