是否有某种PDF转换为文本转换器?


21

我需要PDF文件才能发送文本,因此可以从命令行大量搜索它们。是否有一些适用于Ubuntu,OBSD或类似发行版的转换器?

也许相关的文章,这里有ubuntu的OCR 。



如果它是“真实的” PDF(由文本等制成),则pdftotext是最好的选择。如果是图像,那么最好的选择是OCR。
vonbrand

1
我总是使用pdftotext= pdfcat
同构

Answers:


22

您有很多选择!

pdftotextpoppler已经提到过。

一个叫做Haskell的程序pdf2line运行良好。

口径ebook-convert命令行程序(或口径本身)是另一种选择;它可以将PDF转换为纯文本或其他电子书格式(RTF,ePub),在我看来,它比pdftotext产生更好的结果,尽管它的速度要慢得多。

ebook-convert file.pdf file.txt

AbiWord可以在命令行知道的任何格式之间进行转换,并且至少可以选择具有PDF导入插件:

abiword --to=txt file.pdf

另一个选项podofotextextract来自podofo PDF工具库。我还没有真正尝试过。

如果将两个Ghostscript工具pdf2ps和结合使用,ps2ascii则还有另一个选择。

实际上,我可以想到其他一些方法,但是现在我将不再赘述。;)


口径的电子书转换...您看过它对连字的作用吗?bleargh。让我们这样说:它不是一个非常有效的程序。pdftotext更加忠实。我从来没有发现任何错误的输出。
ixtmixilix 2012年

1
您可以更少地使用pdf文件作为文本来查看。它调用一个预处理器,即lesspipe,以调用pdftotext或类似工具。
DanielNäslund2012年

pdftotext比给出更准确的结果ebook-convert,而且速度非常快。ebook-convert呆滞。
阿米特·帕特尔

pdftotext-layout选择岩石!calibre需要超过600mb的安装空间!太疯狂了)
Stalinko

9

您可以在命令行上使用pdftotext将PDF转换为文本(Ubuntu:poppler-utils; OpenBSD:xpdf-utils软件包)。

您可以使用Recoll (Ubuntu:recoll; OpenBSD:无端口,但FreeBSD有一个端口)在各种格式的文本文档类型(包括PDF)中进行搜索。有一个GUI,它会在后台自动建立索引。它用于pdftotext将PDF转换为文本。

Acrobat Reader(在Linux下至少为版本9)具有有限的多文件搜索功能(您可以在目录中搜索所有文件)。



-1

gPDFText将电子书PDF内容转换为ASCII文本,重新格式化为长行段落,它对我有用,并且具有图形界面。


3
嗨,欢迎来到该网站。我们希望答案在这里更加全面。例如,您可以添加gPDFText可获取的位置,如何安装以及如何将其用于回答OP的问题。
terdon
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.