日期:2014-05-17  浏览次数:20366 次

给两段字符串:请问如何去重,如何计算两字符串相似度?大侠们给点思路或代码。偶会结贴的:)
给两段字符串:请问如何去重,如何计算两字符串相似度?大侠们给点思路。

给点思路或代码即可。

小侠在次先谢过。

比如下边两段:

1:循环判断后添加数据出现丢失情况 盼帮忙 .NET技术 ASP.NET
2:asp net 怎样做循环下载文件呢 .NET技术 ASP.NET

上边的“ .NET技术 ASP.NET“我想去掉,并且我想判断一下这两段文本的相似度。
比如像:小侠在次先谢过与小侠在次先谢谢了,这两段相似度肯定高吧。

------解决方案--------------------
去掉两个字符串共同的部分可以使用后缀数组。
至于判断相似性需要人工智能算法,而且需要大量的训练。
------解决方案--------------------
判断相似度已经有成熟的算法,以从一个串演变到另一个串所需的编辑次数来定。具体算法不记得了。
------解决方案--------------------
自己google一下就知道了

“编辑距离算法”
“lcs最大公共子串”
“贝叶斯概率统计”