Solr实现自动聚类!-Java教程-爱易网页

Solr实现自动聚类!

日期：2014-05-20　浏览次数：20848 次

高分求教Solr实现自动聚类!!!!高手进!!
使用nutch爬取网页，然后把数据发送到Solr中建立索引，并提供查询。

question:在solr中如何在对网页内容进行索引的时候，把在内容中出现词频最多的词组进行归类。

注意:在solr中有carrot2的自动聚类插件，但是那个得要有特征这个字段才可以

XML code

(<str name="carrot.snippet">features</str>)

，也就是说提前先把文章分好类了，但是从nutch爬取回来的网页却是没有经过分类的，所以想要解决这个问题。

所以我的想法是在solr进行索引的时候找出文章中词频达到一定量的文章，然后放到一个字段里面。就可以使用carrot来进行聚类了。但是不知道该在哪一步进行操作和操作的细节...请高手指教!!!

------解决方案--------------------
不是高手，义务帮顶
------解决方案--------------------
用过lucene没用过Solr,帮你顶下吧
------解决方案--------------------
使用lucene可以用一些开源的分词工具，比如庖丁解牛
------解决方案--------------------

探讨

无言等待中...

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

Solr实现自动聚类!

相关资料更多>

推荐阅读更多>