日期:2014-05-18  浏览次数:20801 次

请问如何计算文本相似度?
在网上搜索过资料,但是很多地方不明白。。。

例如使用余弦定理,首先要对文本分词处理,怎么才能比较好的分词呢?

分词后还要用VSM向量化,请问如何向量化?可否举个例子?

而且听说这个方法计算出来的相似度准确度不高,经常误差很大,难道没有解决办法的吗?

或者还有没有其他计算方法?

------解决方案--------------------
你要简单的话不需要采用向量匹配, google "编辑距离"算法.


------解决方案--------------------
探讨
你要简单的话不需要采用向量匹配, google "编辑距离"算法.

------解决方案--------------------
分词你要自己做吗?

网上有中科院的免费组件可以使用.