自己写了一个中文分词组件
自己写了一个中文分词组件,觉得还算不错,大家帮忙测测。。。
嗯,自我感觉分词效率还可以提高。。。。
分词模式有三:最大,最小,歧义包含
歧义包含:就是一句话进行多种切分。
如:我是一个中国人
可以分成:
我是/一个/中国人
我是/一个中国/人
我是一个/中国/人
词库来自于shootsearch
压缩包中包含三个文件:
Segment.dll是分词组件
TestForm.exe是测试程序
sDict.txt是词库文件
先载入词,再进行分词
源码整理一下再发布。。。
http://zsea.blog.com.cn/archives/2007/2244504.shtml
------解决方案--------------------沙发
此地已被国土资源部征用,楼下各位明日请早
------解决方案--------------------帮顶下先
------解决方案--------------------回去在研究.
------解决方案--------------------周末正好研究研究。。。
------解决方案--------------------谢谢
------解决方案--------------------nice work
------解决方案--------------------访问
http://zsea.blog.com.cn/archives/2007/2244504.shtml
无法显示网页
汗一个,先打个记号
======以下重要回复被系统屏蔽,给50分后可以查看=======