日期:2014-05-17  浏览次数:20611 次

求助,关键字的提取问题
本人要实现一个功能,比如我在host A给另一个host B发送一堆内容(S1,S2,S3....Sn),B可以从这一堆字符串中提取关键字(可以这么定义,提取S1,S2,S3......中出现的次数最多的前9个字符串,定义成关键字,这是我想到一种方法,不知道有没有更好的关键字定义方法么?),然后有了关键字,又怎么比较相似度了?

其实我还有个想法了,类似于文本归类,比如(S1,S2,S3),(S4,S5,S6),(S7,S8,S9)这三个为一类,host B收到了这里的9个消息,这个时候host A把S4报告给host B,那么在B端该怎么精确地找到(S4,S5,S6)集合呢?

请问各位大侠有什么想法么?

------解决方案--------------------
根据你的描述(你的描述我只能看个大概),可以用hash建立key-value对,将S4作为key,(S4,S5,S6)作为value,前提是你的key值不重复,这样能迅速准确找到s4对应的集合