日期:2014-05-20  浏览次数:20666 次

文本聚类
  之前自己用java写过,数值数据的聚类。那种比较简单,对于每个聚类簇中的所有数值直接求一次平均值即可形成新的聚类中心。 
   现在做文本聚类到这一步就头大了,主要问题是:
   我们的数据本身是二维的key-value对。其中key是一个term,value是相应的tfidf值,而且每条数据的term都不一样,聚类迭代过程怎么形成新聚类中心。
  
  
Java 文本聚类

------解决方案--------------------
建议参考dbscan算法,网上有该算法的实现。该算法对于二维数据的聚类较适合。