日期:2014-05-18  浏览次数:20446 次

如何正确的从PDF中读取数据?
最近手头上有一个PDF,需要做一些工作取得该文件里的部分数据。
思路
1.将PDF转换为Excel,解析Excel获取数据
2.使用组件PDFBox,调用函数getText读数据
3.使用组件IText,调用函数GetPageContent读数据

思路1 导出的表格页与页间衔接格式不正确,导致解析起来比较麻烦。
思路2 函数读出的纯文本中格式有问题,数据插行严重。
思路3 函数读出的数据为字节流,解析字节流比较麻烦,并且存在文本格式插行现象。

请问高手有什么好的解决方案能正确(格式正确、无中文乱码)的导出PDF中的数据吗?


------解决方案--------------------