日期:2014-05-18  浏览次数:20921 次

大家来讨论算法,大批量同义词替换的思路,想听听各高手的建议。
需求:对一篇文章内容进行同义词替换,生成一篇新的文章,对语义无需求。
1、假设有一个同义词库(数量级6万左右)
2、一个高性能的中文分词工具

想请大家帮帮忙整理一个效率最高的替换思路,请高手踊跃发言:D

------解决方案--------------------
先分词然后替换
------解决方案--------------------
中文分词,将文章 转换为词集,然后再词集中查找同义词是吧

然后呢?
------解决方案--------------------
一般能用就OK了
------解决方案--------------------
我也没理解,楼主应该搞个例子
------解决方案--------------------
通过regex替换
lucence.net 就是不错的分词组件,还有ICTCLAS分词系统 
http://topic.csdn.net/u/20091028/13/df7cd47d-0f30-4361-9695-a6aa547b8d7a.html