日期:2014-05-19  浏览次数:20983 次

自己写了一个中文分词组件
自己写了一个中文分词组件,觉得还算不错,大家帮忙测测。。。

嗯,自我感觉分词效率还可以提高。。。。

分词模式有三:最大,最小,歧义包含

歧义包含:就是一句话进行多种切分。

如:我是一个中国人

可以分成:

我是/一个/中国人

我是/一个中国/人

我是一个/中国/人

词库来自于shootsearch

压缩包中包含三个文件:

Segment.dll是分词组件

TestForm.exe是测试程序

sDict.txt是词库文件

先载入词,再进行分词

源码整理一下再发布。。。
http://zsea.blog.com.cn/archives/2007/2244504.shtml

------解决方案--------------------
沙发


                     此地已被国土资源部征用,楼下各位明日请早

------解决方案--------------------
帮顶下先
------解决方案--------------------
回去在研究.
------解决方案--------------------
周末正好研究研究。。。
------解决方案--------------------
谢谢
------解决方案--------------------
nice work
------解决方案--------------------
访问
http://zsea.blog.com.cn/archives/2007/2244504.shtml
无法显示网页

汗一个,先打个记号

======以下重要回复被系统屏蔽,给50分后可以查看=======