日期:2014-05-18  浏览次数:20843 次

C# PDF 源文件分析+中英文本提取
sunzongbao2007 发帖表示 “我想发帖写写PDF是怎么存储文字的,这有人支持么,有人支持的话,下周一出完整帖子。” 据推测,他的原意是不用第三方PDF控件,只用PDF源文件分析


我在这里向他表示支持并提问,



请问在用C#分析PDF文件的时候:

1)

影印版里面的字体,是怎样处理的?

就是那种看起来不清晰,像影印的,而且有的已经歪歪斜斜的了,但是还可以copy 出来的那种?

2)


就是手工粘贴 PDF 段落的时候,经常段落信息会丢失。

就是说 一个PDF中有10行文字的段落,粘贴出来 是10行字,而不是一个句句相连的段落。

希望在sunzongbao2007发帖的时候能搞定这些问题(中英文)。


就这样吧,


打酱油的,作DM,TM,NLP的,欢迎讨论,本人发帖,从不坑跌。






------解决方案--------------------
www.it118.org/Specials/321869dd-98cb-431b-b6d2-82d973cd739d/f39d8306-42e9-488a-af47-4bd7e51f09c1.htm
------解决方案--------------------
影印版里面的字体,是怎样处理的?

就是那种看起来不清晰,像影印的,而且有的已经歪歪斜斜的了,但是还可以copy 出来的那种?

除非是光学文字识别(OCR),,或者拷贝出图像,否则不可能。

2)


就是手工粘贴 PDF 段落的时候,经常段落信息会丢失。

就是说 一个PDF中有10行文字的段落,粘贴出来 是10行字,而不是一个句句相连的段落。

PDF使用了绝对定位和流定位结合的方法来保持排版,这样的特性使得它更像是打印机脚本,而不是文档。也就是说,pdf本身没有逻辑上的段落这个概念。所谓能粘贴出段落,是提取软件自身实现的,所以不可靠。
------解决方案--------------------
坐等源码。。。
------解决方案--------------------
用 IFilter 可以提取 .pdf 里面的内容。如果是个图片,再用 OCR 辨认一下就 ok。。

自己从头写过? 重新发明轮子是不是就是这样。。
------解决方案--------------------
PDF取值应该很容易了吧
教程应该比较多

用微软的 OCR识别 就必须装Office的一个组件
其它的OCR软件或者库感觉识别率都没有微软的识别率高

OCR可以bing 这个 MODIDemo
------解决方案--------------------
用到了图像识别技术,不是单纯的复制文字,你选择的时候可以发现 影印版选择的是区域。