日期:2014-05-18  浏览次数:20971 次

请教:C# 截词算法
请教:
  我想从一句话里提取出多个字符串,但是不知道怎么来分辨取出的字符串就是一个词组,有这样牛逼的算法吗?急!!!

  比如:“中国工程院院士增选标准中增加品行端正内容”这句话,我想提取三个长度在5以内的字符串,怎么保证每个字符串就是一个没有语法错误的词?
  谢谢!!!

------解决方案--------------------
首先要有自己的 词库
才能出做好的 分词
比如
中国工程院院士增选标准中增加品行端正内容”这句话,中的
中国,
工程院,
院士,
增选,
标准(中),
中,
增加,
平行端正,
内容
这样的词库
建立 全文索引 ,保存字符串的 起始和技术位置...
------解决方案--------------------
这个要用到中文索引技术了,查一查相关的资料吧,不是一句两句能说清楚的。
------解决方案--------------------
词库 比较重要
------解决方案--------------------
探讨
引用:
首先要有自己的 词库
才能出做好的 分词
比如
中国工程院院士增选标准中增加品行端正内容”这句话,中的
中国,
工程院,
院士,
增选,
标准(中),
中,
增加,
平行端正,
内容
这样的词库
建立 全文索引 ,保存字符串的 起始和技术位置...



这里面的这句话是不确定的,取的词也是不确定的
我是想根据这句话的内容,提取出相应的关键字,而不是我自己检索。
建词库的…

------解决方案--------------------
没词库做不了吧,牛人啊,学习一下!