请问如何计算文本相似度?
在网上搜索过资料,但是很多地方不明白。。。
例如使用余弦定理,首先要对文本分词处理,怎么才能比较好的分词呢?
分词后还要用VSM向量化,请问如何向量化?可否举个例子?
而且听说这个方法计算出来的相似度准确度不高,经常误差很大,难道没有解决办法的吗?
或者还有没有其他计算方法?
------解决方案--------------------
你要简单的话不需要采用向量匹配, google "编辑距离"算法.
------解决方案--------------------
------解决方案--------------------
分词你要自己做吗?
网上有中科院的免费组件可以使用.