错别字识别功能
目前做文章采集系统,需要对文章扫描,自动识别错别字,这个功能该如何实现呢?
大家有什么好的思路介绍下,我在百度上搜了下,没有合适的答案,一般就是用word,文本矫正!
但是通过程序如何去调用呢,没指定的api。
或者有没有比word更好的软件,能够通过程序访问实现的?
------解决方案--------------------英文的很多,中文的沒見過OK
------解决方案--------------------对文本后缀序列做马尔科夫链。
你可以得到一个概率模型,然后用贝叶斯分类,确定错字。
------解决方案--------------------有鳥用,,,中國幾千年文化了,你一個搞個丟,,,,
------解决方案--------------------分词系统就是程序写好以后,也是需要到一个特点领域去进行训练的。因为有些语义是在特定领域下才是有意思的。就跟训狗一样,你的用程序去训练你的分词库。