如何在Linux上的脚本中从pdf提取文本？

23

在Linux上-如何从.pdf真正是文本而不是扫描图像的文本中提取文本？我想要可以在命令行/脚本中使用的内容，而不是交互式地使用。（我不想转换为.tifOCR并使用它-文件中已经有文本可用.pdf，所以为什么从不完善的OCR中引入不准确性？）

linux pdf script export

— 罗宾
source

Askubuntu上的类似问题

— Trevor Boyd Smith

25

pdftotext poppler随附的文件将尝试提取PDF中找到的所有文本。

— 伊格纳西奥·巴斯克斯（Ignacio Vazquez-Abrams）
source

1

感谢您的快速回应，Ignacio！我已经在检查w xpdf附带的pdftotext（来自foolabs.com）-您的回答促使我再看一遍，然后它开始工作。Poppler似乎是从xpdf演变而来的，所以我也来看看。再次感谢！

— RobM 2010年

9

伊格纳西奥的答案很好。实际上，这将是我名单上的第一件事。好吧，这也许是建议pdftohtml使用poppler附带的工具，如果您想尝试将文本重组为段落等，请结合使用pdfreflow（当然，这将为您提供HTML输出，但是将HTML转换为纯文本可以可以通过多种方式完成。）

这里还有其他一些选择。

Caliber的ebook-convert命令行工具，可以将.PDF转换为纯文本（或RTF或多种电子书格式，例如ePub等）。

pdftxtextract来自Podofo

可以从命令行调用Abiword，以在它可以输入/导出的任何格式之间进行转换，并且使用适当的导入插件，其中包括PDF：

abiword --to=txt file.pdf

（公平地说，我认为AbiWord和口径都使用poppler库，但我并不乐观。）

— 松脆的
source

谢谢你！在这种情况下，我只是提取文本，以便可以扫描特定的字符串（供应商名称，帐号）和模式（发票编号和日期），因此无需重新格式化或重新显示它。我很感谢这种佐证和其他选择，而且我相信其他人也将如此！-Rob

— RobM 2010年