Answers:
pdftotext
poppler随附的文件将尝试提取PDF中找到的所有文本。
伊格纳西奥的答案很好。实际上,这将是我名单上的第一件事。好吧,这也许是建议pdftohtml
使用poppler附带的工具,如果您想尝试将文本重组为段落等,请结合使用pdfreflow(当然,这将为您提供HTML输出,但是将HTML转换为纯文本可以可以通过多种方式完成。)
这里还有其他一些选择。
Caliber的ebook-convert
命令行工具,可以将.PDF转换为纯文本(或RTF或多种电子书格式,例如ePub等)。
pdftxtextract
来自Podofo
可以从命令行调用Abiword,以在它可以输入/导出的任何格式之间进行转换,并且使用适当的导入插件,其中包括PDF:
abiword --to=txt file.pdf
(公平地说,我认为AbiWord和口径都使用poppler库,但我并不乐观。)