pdfbox提取pdf文本，如其pdf中的字体本地没有，出现乱码-Java教程-爱易网页

pdfbox提取pdf文本，如其pdf中的字体本地没有，出现乱码

日期：2014-05-20　浏览次数：21830 次

pdfbox提取pdf文本，如果pdf中的字体本地没有，出现乱码
pdfbox提取pdf文本，如果pdf中的字体本地没有，出现乱码。

我写了个简单的代码，从pdf文件中取得文本。传入不同的pdf文件发现有的可以正确显示，有的显示乱码，我用的是pdfbox 0.73版，而且所有的pdf都是英文的内容。

有的是同1个文件中一部分是乱码，一部分正常显示，所以我觉得是因为有些文本的字体本地没有，导致用getText()方法时，返回的是乱码。

代码大致如下：
PDDocument doc=PDDocumet.load( "c:\\test.pdf ");
PDFTextStripper stripper=new PDFTextStripper ();

String text=stripper.getText(doc);

运行后text变量中有可能包括一部分是正常显示的字符，一部分是乱码

请问这种现象是不是因为字体的原因？如果是，有没有办法在调用getText()之前，将pdf中本地没有的字体替换成本地有的，这样再调用getText()应该可以正确显示。
或者有其他方法解决？？？？

------解决方案--------------------
up

------解决方案--------------------
字体的原因是出现方框,你这应该是编码格式不统一吧~~或者读出来的时候就已经是乱码了,转码看看
------解决方案--------------------
和我联系easypdf@gmail.com
------解决方案--------------------
关注一下
------解决方案--------------------
关注一下

继续
------解决方案--------------------
关注一下，
我试验了ExtractText程序
有Resource目录，可是没有作用
cmap下明明有Identity-V的，可总是认为unknown encoding

------解决方案--------------------
出来转成char时,java 用Unicode 编码
看看Encoding是什么,不一定是Unicode编码啊

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

相关资料更多>

有哪位高手可以告诉小弟我这个程序的有关问题,帮帮忙

mark(),reset()方法不是很了解，请高手给指点一下，最好有个例子,该如何解决

（求救）用Eclipse编J2ME程序时，资源文件放在工程的那个目录下？解决方法

这代码如何编译不过去

java.net.ConnectException: Connection refused: connect就可以异常，高手看下，

图片转化作二维码存入数据库之后，能取出来再转化为图片显示么

eclipse修改jsp页面后，页面没反应，重启tomcat后才好使。疯了,该如何处理

将一个文件中的每一行内容反转输出到另外一个文件解决办法

请问如何读股票的内存地址

香港全能空间免费试用15天香港高速云虚拟主机PHP/ASP/NET送MSSQL和MYSQL

pdfbox提取pdf文本，如其pdf中的字体本地没有，出现乱码

相关资料更多>

推荐阅读更多>