Answers:
您有很多选择!
pdftotext
从poppler已经提到过。
有一个叫做Haskell的程序pdf2line
运行良好。
口径的ebook-convert
命令行程序(或口径本身)是另一种选择;它可以将PDF转换为纯文本或其他电子书格式(RTF,ePub),在我看来,它比pdftotext产生更好的结果,尽管它的速度要慢得多。
ebook-convert file.pdf file.txt
AbiWord可以在命令行知道的任何格式之间进行转换,并且至少可以选择具有PDF导入插件:
abiword --to=txt file.pdf
另一个选项podofotextextract
来自podofo PDF工具库。我还没有真正尝试过。
如果将两个Ghostscript工具pdf2ps
和结合使用,ps2ascii
则还有另一个选择。
实际上,我可以想到其他一些方法,但是现在我将不再赘述。;)
pdftotext
比给出更准确的结果ebook-convert
,而且速度非常快。ebook-convert
呆滞。
pdftotext
与-layout
选择岩石!calibre
需要超过600mb的安装空间!太疯狂了)
您可以在命令行上使用pdftotext将PDF转换为文本(Ubuntu:poppler-utils; OpenBSD:xpdf-utils
软件包)。
您可以使用Recoll
(Ubuntu:recoll; OpenBSD:无端口,但FreeBSD有一个端口)在各种格式的文本文档类型(包括PDF)中进行搜索。有一个GUI,它会在后台自动建立索引。它用于pdftotext
将PDF转换为文本。
Acrobat Reader(在Linux下至少为版本9)具有有限的多文件搜索功能(您可以在目录中搜索所有文件)。
pdftotext可能是您正在寻找的内容:http : //en.wikipedia.org/wiki/Pdftotext,除非您要提取的文本确实是图形形式,这在pdf文档中并不常见。