有哪位高手知道如何提取PDF的文字内容么，不能用第三方包-C#教程-爱易网页

有哪位高手知道如何提取PDF的文字内容么，不能用第三方包

日期：2014-05-18　浏览次数：21335 次

有谁知道怎么提取PDF的文字内容么，不能用第三方包。
我苦逼了很久才解析出英文和数字。

但是多字节的还不能成功……蛋疼。

谁有这方面经验么？

主要是提取PDF中的文字，需要能提取中文等多字节文字，当然了英文和数字标点什么的也要能够提取。
不能使用第三方的工具包。只能二进制解析。

有经验的大神，指一条明路吧。

------解决方案--------------------
等吧，叫你老闆加你人工
------解决方案--------------------
反编译下别人的包，看看别人怎么做的。。。
------解决方案--------------------
Acrobat
然后Ctrl+C/Ctrl+V
------解决方案--------------------
帮顶，我也想知道怎么弄！
------解决方案--------------------
我记得研究生都用过的PDF论文都是用代码写的有一个工具。。你可以去参考那个工具的WIN开头的好像。。
------解决方案--------------------

http://blog.csdn.net/yezi2413/article/details/3132074

不知道对你有没有用

------解决方案--------------------
連Adobe的自己的包也不行嗎？如果可以請參考
http://www.dotnetspider.com/resources/5046-Search-String-PDF-File.aspx
------解决方案--------------------
蛋疼了吧，呵呵呵
------解决方案--------------------
Docotic.Pdf Library
试试看看
------解决方案--------------------

探讨

引用:

Docotic.Pdf Library
试试看看

也是第三方

------解决方案--------------------
傻瓜，反編譯一個源碼就OK，
------解决方案--------------------

探讨

引用:

Acrobat
然后Ctrl+C/Ctrl+V

= =我要用Lucene做pdf文档的全文检索的。

------解决方案--------------------
http://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET
------解决方案--------------------
汗回复的人都没看见。不能用第三方的dll吗

但是借用第三方控件开源的代码提取里面的东西即可。例如 PDFLibNet.dll这个开源。提取里面代码
------解决方案--------------------
沒有免費的好東東啊，

my blog
http://ufo-crackerx.blog.163.com/
------解决方案--------------------
楼主这个研究很有意思，期待你的开发成功！
------解决方案--------------------
楼主想自己把文字都解出来？
做出去就卖钱，别犹豫。
------解决方案--------------------
当时我研究了几天，算是吧中文导出来了，记得当时做了两个版本的C#和Java都做了一个。
C#用的是PDFBox，是Adobe公司提供的免费解析包，感觉还不错，但有个别问题的，楼主可以试试。
------解决方案--------------------
看见用代码读这样东东，就烦。哎。。
------解决方案--------------------
好像libreOffice应该有PDF格式的说明吧
------解决方案--------------------

探讨

我记得研究生都用过的PDF论文都是用代码写的有一个工具。。你可以去参考那个工具的WIN开头的好像。。

------解决方案--------------------
为什么不用？不用白不用自己写多累呀
------解决方案--------------------
pdf文件里可以直接设置具体某些文字的编码方式。

如果你只是为了提取文件。了解一下pdf文件结构。不必要花这么久时间去问应该也写的差不多了。
如果要提取pdf图片上的文字。那需要ocr了。
------解决方案--------------------
用个混淆器，就说这个东西是自己写的不就行了

------解决方案--------------------

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

有哪位高手知道如何提取PDF的文字内容么，不能用第三方包

相关资料更多>

推荐阅读更多>