给两段字符串:请问如何去重,如何计算两字符串相似度?大侠们给点思路或代码。偶会结贴的:)
给两段字符串:请问如何去重,如何计算两字符串相似度?大侠们给点思路。
给点思路或代码即可。
小侠在次先谢过。
比如下边两段:
1:循环判断后添加数据出现丢失情况 盼帮忙 .NET技术 ASP.NET
2:asp net 怎样做循环下载文件呢 .NET技术 ASP.NET
上边的“ .NET技术 ASP.NET“我想去掉,并且我想判断一下这两段文本的相似度。
比如像:小侠在次先谢过与小侠在次先谢谢了,这两段相似度肯定高吧。
------解决方案--------------------
去掉两个字符串共同的部分可以使用后缀数组。
至于判断相似性需要人工智能算法,而且需要大量的训练。
------解决方案--------------------
判断相似度已经有成熟的算法,以从一个串演变到另一个串所需的编辑次数来定。具体算法不记得了。
------解决方案--------------------
自己google一下就知道了
“编辑距离算法”
“lcs最大公共子串”
“贝叶斯概率统计”