如何在Linux上的脚本中从pdf提取文本?


23

在Linux上-如何从.pdf真正是文本而不是扫描图像的文本中提取文本?我想要可以在命令行/脚本中使用的内容,而不是交互式地使用。(我不想转换为.tifOCR并使用它-文件中已经有文本可用.pdf,所以为什么从不完善的OCR中引入不准确性?)


Answers:


25

pdftotext poppler随附的文件将尝试提取PDF中找到的所有文本。


1
感谢您的快速回应,Ignacio!我已经在检查w xpdf附带的pdftotext(来自foolabs.com)-您的回答促使我再看一遍,然后它开始工作。Poppler似乎是从xpdf演变而来的,所以我也来看看。再次感谢!
RobM 2010年

9

伊格纳西奥的答案很好。实际上,这将是我名单上的第一件事。好吧,这也许是建议pdftohtml使用poppler附带的工具,如果您想尝试将文本重组为段落等,请结合使用pdfreflow(当然,这将为您提供HTML输出,但是将HTML转换为纯文本可以可以通过多种方式完成。)

这里还有其他一些选择。

Caliberebook-convert命令行工具,可以将.PDF转换为纯文本(或RTF或多种电子书格式,例如ePub等)。

pdftxtextract来自Podofo

可以从命令行调用Abiword,以在它可以输入/导出的任何格式之间进行转换,并且使用适当的导入插件,其中包括PDF:

abiword --to=txt file.pdf

(公平地说,我认为AbiWord和口径都使用poppler库,但我并不乐观。)


谢谢你!在这种情况下,我只是提取文本,以便可以扫描特定的字符串(供应商名称,帐号)和模式(发票编号和日期),因此无需重新格式化或重新显示它。我很感谢这种佐证和其他选择,而且我相信其他人也将如此!-Rob
RobM 2010年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.