请教:C# 截词算法
请教:
我想从一句话里提取出多个字符串,但是不知道怎么来分辨取出的字符串就是一个词组,有这样牛逼的算法吗?急!!!
比如:“中国工程院院士增选标准中增加品行端正内容”这句话,我想提取三个长度在5以内的字符串,怎么保证每个字符串就是一个没有语法错误的词?
谢谢!!!
------解决方案--------------------首先要有自己的 词库
才能出做好的 分词
比如
中国工程院院士增选标准中增加品行端正内容”这句话,中的
中国,
工程院,
院士,
增选,
标准(中),
中,
增加,
平行端正,
内容
这样的词库
建立 全文索引 ,保存字符串的 起始和技术位置...
------解决方案--------------------这个要用到中文索引技术了,查一查相关的资料吧,不是一句两句能说清楚的。
------解决方案--------------------词库 比较重要
------解决方案--------------------
------解决方案--------------------没词库做不了吧,牛人啊,学习一下!