C# PDF 源文件分析+中英文本提取
sunzongbao2007 发帖表示
“我想发帖写写PDF是怎么存储文字的,这有人支持么,有人支持的话,下周一出完整帖子。”
据推测,他的原意是不用第三方PDF控件,只用PDF源文件分析
我在这里向他表示支持并提问,
请问在用C#分析PDF文件的时候:
1)
影印版里面的字体,是怎样处理的?
就是那种看起来不清晰,像影印的,而且有的已经歪歪斜斜的了,但是还可以copy 出来的那种?
2)
就是手工粘贴 PDF 段落的时候,经常段落信息会丢失。
就是说 一个PDF中有10行文字的段落,粘贴出来 是10行字,而不是一个句句相连的段落。
希望在sunzongbao2007发帖的时候能搞定这些问题(中英文)。
就这样吧,
打酱油的,作DM,TM,NLP的,欢迎讨论,本人发帖,从不坑跌。
------解决方案--------------------www.it118.org/Specials/321869dd-98cb-431b-b6d2-82d973cd739d/f39d8306-42e9-488a-af47-4bd7e51f09c1.htm
------解决方案--------------------影印版里面的字体,是怎样处理的?
就是那种看起来不清晰,像影印的,而且有的已经歪歪斜斜的了,但是还可以copy 出来的那种?
除非是光学文字识别(OCR),,或者拷贝出图像,否则不可能。
2)
就是手工粘贴 PDF 段落的时候,经常段落信息会丢失。
就是说 一个PDF中有10行文字的段落,粘贴出来 是10行字,而不是一个句句相连的段落。
PDF使用了绝对定位和流定位结合的方法来保持排版,这样的特性使得它更像是打印机脚本,而不是文档。也就是说,pdf本身没有逻辑上的段落这个概念。所谓能粘贴出段落,是提取软件自身实现的,所以不可靠。
------解决方案--------------------坐等源码。。。
------解决方案--------------------用 IFilter 可以提取 .pdf 里面的内容。如果是个图片,再用 OCR 辨认一下就 ok。。
自己从头写过? 重新发明轮子是不是就是这样。。
------解决方案--------------------PDF取值应该很容易了吧
教程应该比较多
用微软的 OCR识别 就必须装Office的一个组件
其它的OCR软件或者库感觉识别率都没有微软的识别率高
OCR可以bing 这个 MODIDemo
------解决方案--------------------用到了图像识别技术,不是单纯的复制文字,你选择的时候可以发现 影印版选择的是区域。