C# PDF 源文件分析+中英文本提取解决思路-C#教程-爱易网页

C# PDF 源文件分析+中英文本提取解决思路

日期：2014-05-18　浏览次数：21335 次

C# PDF 源文件分析+中英文本提取
sunzongbao2007 发帖表示 “我想发帖写写PDF是怎么存储文字的，这有人支持么，有人支持的话，下周一出完整帖子。” 据推测，他的原意是不用第三方PDF控件，只用PDF源文件分析

我在这里向他表示支持并提问，

请问在用C#分析PDF文件的时候：

1）

影印版里面的字体，是怎样处理的？

就是那种看起来不清晰，像影印的，而且有的已经歪歪斜斜的了，但是还可以copy 出来的那种？

2）

就是手工粘贴 PDF 段落的时候，经常段落信息会丢失。

就是说一个PDF中有10行文字的段落，粘贴出来是10行字，而不是一个句句相连的段落。

希望在sunzongbao2007发帖的时候能搞定这些问题（中英文）。

就这样吧，

打酱油的，作DM，TM，NLP的，欢迎讨论，本人发帖，从不坑跌。

------解决方案--------------------
www.it118.org/Specials/321869dd-98cb-431b-b6d2-82d973cd739d/f39d8306-42e9-488a-af47-4bd7e51f09c1.htm
------解决方案--------------------
影印版里面的字体，是怎样处理的？

就是那种看起来不清晰，像影印的，而且有的已经歪歪斜斜的了，但是还可以copy 出来的那种？

除非是光学文字识别（OCR），，或者拷贝出图像，否则不可能。

2）

就是手工粘贴 PDF 段落的时候，经常段落信息会丢失。

就是说一个PDF中有10行文字的段落，粘贴出来是10行字，而不是一个句句相连的段落。

PDF使用了绝对定位和流定位结合的方法来保持排版，这样的特性使得它更像是打印机脚本，而不是文档。也就是说，pdf本身没有逻辑上的段落这个概念。所谓能粘贴出段落，是提取软件自身实现的，所以不可靠。
------解决方案--------------------
坐等源码。。。
------解决方案--------------------
用 IFilter 可以提取 .pdf 里面的内容。如果是个图片，再用 OCR 辨认一下就 ok。。

自己从头写过？重新发明轮子是不是就是这样。。
------解决方案--------------------
PDF取值应该很容易了吧
教程应该比较多

用微软的 OCR识别就必须装Office的一个组件
其它的OCR软件或者库感觉识别率都没有微软的识别率高

OCR可以bing 这个 MODIDemo
------解决方案--------------------
用到了图像识别技术，不是单纯的复制文字，你选择的时候可以发现影印版选择的是区域。

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

C# PDF 源文件分析+中英文本提取解决思路

相关资料更多>

推荐阅读更多>