测试 Tesseract-OCR 在windows平台过程记录
由于承接各种项目的缘故,遇到了所谓分析图片内容相关的需求。特地研究了一番OCR。看到很多人都困惑在这里,特记录过程如下:
参考网站:http://blog.csdn.net/zhoushuyan/archive/2010/10/18/5948289.aspx
http://blog.csdn.net/foamflower/archive/2010/12/31/6110211.aspx
感谢作者提供的思路及代码。
只需:ImageIOHelper.java, OCR.java , Test.java (见附件)。
1,下载 tesseract-ocr-setup-3.00.exe 按照提示安装。正常情况安装完 tesseract-ocr-setup-3.00.exe 应该在命令行就可以运行了。如果无法运行或者提示“系统无法执行此程序”,是因为windows平台的tesseract.exe需要VC++2008运行库支持。需要下载安装:
http://www.xdowns.com/soft/softdown.asp?softid=39360
2,下载 chi_sim.traineddata.gz 在Tesseract-OCR安装目录下找到\tessdata目录,把 chi_sim.traineddata.gz 语言包解压缩之后的chi_sim.traineddata文件复制到该目录下即可。
3,编写测试代码所需的jar包: jai_imageio-1.1-alpha.jar, swingx-1.0.jar
可在www.findjar.com 网站上去下载。
4,将代码中的路径指向tesseract所在的路径。程序会按照命令行方式访问tesseract.exe执行。处理中文字符相对较慢。
至此测试完毕。