日期:2014-05-17  浏览次数:20916 次

测试 Tesseract-OCR 在windows平台过程记录
由于承接各种项目的缘故,遇到了所谓分析图片内容相关的需求。特地研究了一番OCR。看到很多人都困惑在这里,特记录过程如下:

参考网站:http://blog.csdn.net/zhoushuyan/archive/2010/10/18/5948289.aspx
http://blog.csdn.net/foamflower/archive/2010/12/31/6110211.aspx
感谢作者提供的思路及代码。

只需:ImageIOHelper.java, OCR.java , Test.java (见附件)。

1,下载 tesseract-ocr-setup-3.00.exe  按照提示安装。正常情况安装完 tesseract-ocr-setup-3.00.exe 应该在命令行就可以运行了。如果无法运行或者提示“系统无法执行此程序”,是因为windows平台的tesseract.exe需要VC++2008运行库支持。需要下载安装:
http://www.xdowns.com/soft/softdown.asp?softid=39360


2,下载 chi_sim.traineddata.gz 在Tesseract-OCR安装目录下找到\tessdata目录,把 chi_sim.traineddata.gz 语言包解压缩之后的chi_sim.traineddata文件复制到该目录下即可。


3,编写测试代码所需的jar包: jai_imageio-1.1-alpha.jar, swingx-1.0.jar
可在www.findjar.com 网站上去下载。


4,将代码中的路径指向tesseract所在的路径。程序会按照命令行方式访问tesseract.exe执行。处理中文字符相对较慢。


至此测试完毕。

1 楼 wzjsyj 2011-03-22  
楼主,我测试的结果是这样的CreateProcess: "C:\Program Files\Tesseract-OCR" 100.tif output -l eng error=5能否发一份全的,我急需呢253436278@qq.com谢谢啊