pdfbox提取pdf文本，如其pdf中的字体本地没有，出现乱码-Java教程-爱易网页

pdfbox提取pdf文本，如其pdf中的字体本地没有，出现乱码

日期：2014-05-20　浏览次数：21385 次

pdfbox提取pdf文本，如果pdf中的字体本地没有，出现乱码
pdfbox提取pdf文本，如果pdf中的字体本地没有，出现乱码。

我写了个简单的代码，从pdf文件中取得文本。传入不同的pdf文件发现有的可以正确显示，有的显示乱码，我用的是pdfbox 0.73版，而且所有的pdf都是英文的内容。

有的是同1个文件中一部分是乱码，一部分正常显示，所以我觉得是因为有些文本的字体本地没有，导致用getText()方法时，返回的是乱码。

代码大致如下：
PDDocument doc=PDDocumet.load( "c:\\test.pdf ");
PDFTextStripper stripper=new PDFTextStripper ();

String text=stripper.getText(doc);

运行后text变量中有可能包括一部分是正常显示的字符，一部分是乱码

请问这种现象是不是因为字体的原因？如果是，有没有办法在调用getText()之前，将pdf中本地没有的字体替换成本地有的，这样再调用getText()应该可以正确显示。
或者有其他方法解决？？？？

------解决方案--------------------
up

------解决方案--------------------
字体的原因是出现方框,你这应该是编码格式不统一吧~~或者读出来的时候就已经是乱码了,转码看看
------解决方案--------------------
和我联系easypdf@gmail.com
------解决方案--------------------
关注一下
------解决方案--------------------
关注一下

继续
------解决方案--------------------
关注一下，
我试验了ExtractText程序
有Resource目录，可是没有作用
cmap下明明有Identity-V的，可总是认为unknown encoding

------解决方案--------------------
出来转成char时,java 用Unicode 编码
看看Encoding是什么,不一定是Unicode编码啊

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

pdfbox提取pdf文本，如其pdf中的字体本地没有，出现乱码

相关资料更多>

推荐阅读更多>