日期:2014-05-18  浏览次数:20832 次

有谁知道怎么提取PDF的文字内容么,不能用第三方包。
我苦逼了很久才解析出英文和数字。

但是多字节的还不能成功……蛋疼。

谁有这方面经验么?

主要是提取PDF中的文字,需要能提取中文等多字节文字,当然了英文和数字标点什么的也要能够提取。
不能使用第三方的工具包。只能二进制解析。

有经验的大神,指一条明路吧。

------解决方案--------------------
等吧,叫你老闆加你人工
------解决方案--------------------
反编译下别人的包,看看别人怎么做的。。。
------解决方案--------------------
Acrobat 
然后Ctrl+C/Ctrl+V
------解决方案--------------------
帮顶,我也想知道怎么弄!
------解决方案--------------------
我记得研究生都用过的PDF论文都是用代码写的 有一个工具。。你可以去参考那个工具的WIN开头的好像。。
------解决方案--------------------

http://blog.csdn.net/yezi2413/article/details/3132074

不知道对你有没有用

------解决方案--------------------
連Adobe的自己的包也不行嗎?如果可以請參考
http://www.dotnetspider.com/resources/5046-Search-String-PDF-File.aspx
------解决方案--------------------
蛋疼了吧,呵呵呵
------解决方案--------------------
Docotic.Pdf Library
试试看看
------解决方案--------------------
探讨

引用:

Docotic.Pdf Library
试试看看

也是第三方

------解决方案--------------------
傻瓜,反編譯一個源碼就OK,
------解决方案--------------------
探讨

引用:

Acrobat
然后Ctrl+C/Ctrl+V


= =我要用Lucene做pdf文档的全文检索的。

------解决方案--------------------
http://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET
------解决方案--------------------
汗回复的人都没看见。不能用第三方的dll吗

但是借用第三方控件开源的代码 提取里面的东西即可。例如 PDFLibNet.dll这个开源。提取里面代码
------解决方案--------------------
沒有免費的好東東啊,


my blog
http://ufo-crackerx.blog.163.com/
------解决方案--------------------
楼主这个研究很有意思,期待你的开发成功!
------解决方案--------------------
楼主想自己把文字都解出来?
做出去就卖钱,别犹豫。
------解决方案--------------------
当时我研究了几天,算是吧中文导出来了,记得当时做了两个版本的C#和Java都做了一个。
C#用的是PDFBox,是Adobe公司提供的免费解析包,感觉还不错,但有个别问题的,楼主可以试试。
------解决方案--------------------
看见用代码读这样东东,就烦。哎。。
------解决方案--------------------
好像libreOffice应该有PDF格式的说明吧
------解决方案--------------------
探讨

我记得研究生都用过的PDF论文都是用代码写的 有一个工具。。你可以去参考那个工具的WIN开头的好像。。

------解决方案--------------------
为什么不用? 不用白不用 自己写多累呀
------解决方案--------------------
pdf文件里可以直接设置具体某些文字的编码方式。

如果你只是为了提取文件。了解一下pdf文件结构。不必要花这么久时间去问应该也写的差不多了。
如果要提取pdf图片上的文字。那需要ocr了。
------解决方案--------------------
用个混淆器,就说这个东西是自己写的不就行了

------解决方案--------------------