Tesseract3.01 中文乱码有关问题-C#教程-爱易网页

Tesseract3.01 中文乱码有关问题

日期：2014-05-17　浏览次数：21318 次

Tesseract3.01 中文乱码问题

C#代码:
Bitmap bmp = (Bitmap)Bitmap.FromFile(@"E:\12.png");
TesseractProcessor tp = new TesseractProcessor();
if (tp.Init(null, "chi_sim", 7))
{
string result = tp.Apply(bmp);
}
我用以上代码OCR上面图片(Tesseract版本为3.01),结果为:
result == "涓腑涓腑涓腑涓腑涓?涓腑\n\n";
用Encoding.UTF8.GetString(Encoding.GetEncoding("GB2312").GetBytes(result)),结果为:
"中中中中中中中中

?中中\n\n";

感觉Tesseract OCR中文编码为GB2312;,但是结果总是受字符间的空格影响为乱码.
Encoding.GetEncoding("gb2312").GetBytes(result)所得byte[]为:
228,184,173,228,184,173,32.228,184,173,228,184,173,228,184,173,228,184,173,32,228,184,173,228,184,63,228,184,173,228,184,173,10,10

其中32为空格,228,184,173三字节一个"中"字,但总会有大量的,像"228,184,63"这样的结果出乱码.请各路大神指点一二.谢谢.

以下例子一样:

string result = tp.Apply(bmp);
result =="浣犱綘浼?\n";
用Encoding.UTF8.GetString(Encoding.GetEncoding("GB2312").GetBytes(result)),结果为:
"你你

?\n";
Encoding.GetEncoding("gb2312").GetBytes(result)所得byte[]为:
228,189,160,228,189,160,32,228,188,63,10

Tesseract3.01 乱码

------解决方案--------------------
图片里存在的是二进制数。即然是图片，那就用字节来进行转换。

和gb2312没有任何的关系。

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

相关资料更多>

error CS5001: 程序“c:\1.exe”未定义入口点 C# 中,该怎么处理

【dataGridView怎么获得指定行列的值？[帮顶有分]

C#中私有变量的运用

*怎么读取mp3类型歌曲的"持续时间"这个属性*

dictionary 只能遍历最后一个,该怎么解决

请教各位，net怎么做windows组件服务，只要你的DLL，一注册就一直运行

play framework的学习开展

winform中打开一个窗体，先显示一张图片，过3秒后再弹出登录窗体，怎么实现

对于一些大商场里面的POS机器，如果按日、周、月进行统计报表，统计后的格式如下：解决方法

网站建设一条龙做网站网站制作网站定制企业网站设计特价

推荐阅读更多>