高分求教Solr实现自动聚类!!!!高手进!!
使用nutch爬取网页,然后把数据发送到Solr中建立索引,并提供查询。
question:在solr中如何在对网页内容进行索引的时候,把在内容中出现词频最多的词组进行归类。
注意:在solr中有carrot2的自动聚类插件,但是那个得要有特征这个字段才可以
XML code
(<str name="carrot.snippet">features</str>)
,也就是说提前先把文章分好类了,但是从nutch爬取回来的网页却是没有经过分类的,所以想要解决这个问题。
所以我的想法是在solr进行索引的时候找出文章中词频达到一定量的文章,然后放到一个字段里面。就可以使用carrot来进行聚类了。但是不知道该在哪一步进行操作和操作的细节...请高手指教!!!
------解决方案--------------------
不是高手,义务帮顶
------解决方案--------------------
用过lucene没用过Solr,帮你顶下吧
------解决方案--------------------
使用lucene可以用一些开源的分词工具,比如庖丁解牛
------解决方案--------------------