PDF 提取文件内容
我想把PDF内容存到数据库里。
这个大家怎么弄。
思路或建议或代码或三方插件
ASP或者ASP.NET都行。我先去查点资料。大家帮帮忙。
------解决方案--------------------目前没有100%能提取完整的数据。
my blog
http://ufo-crackerx.blog.163.com/
------解决方案--------------------google有
------解决方案--------------------不知道这个可以不?activex控件来的,具体用用才知道。
http://shareware.skycn.com/soft/20936.htm
------解决方案--------------------C# 能读出pdf里面的 文字和图片??
------解决方案--------------------ORC图像识别
------解决方案--------------------好象没有100%能搞定LZ的方法吧。
关注中!
------解决方案--------------------这个需求还真的有点迷人
------解决方案--------------------试试iText
http://sourceforge.net/projects/itext/
------解决方案--------------------专门的软件也不一定能做到吧
pdf如果加密 专门找pdf破解软件还要费好大劲 也不一定能搞下来
asp c#能做到??
------解决方案--------------------private void button1_Click(object sender, EventArgs e)
{
ofdlg.Filter = "pdf文件(*.pdf)
------解决方案--------------------*.pdf";//选择pdf文件
if (ofdlg.ShowDialog() == DialogResult.OK)
{
filename = string.Format("{0}", ofdlg.FileName);
}
}
private void button2_Click(object sender, EventArgs e)
{
Process p = new Process();
string path = "pdftotext.exe"; //进程启用外部程序
p.StartInfo.FileName = path;
p.StartInfo.Arguments = string.Format("\"" + filename +"\"" + " -");
p.StartInfo.UseShellExecute = false;
p.StartInfo.RedirectStandardInput = true;
p.StartInfo.RedirectStandardOutput = true;
p.StartInfo.RedirectStandardError = true;
p.StartInfo.CreateNoWindow = true;
p.Start();
string s = p.StandardOutput.ReadToEnd();