如何将扫描的PDF转换为带文本的PDF

36

我已经扫描了约80页，转换为灰度pdf（图像格式）。文件的最终大小约为70MB，这非常大。

现在，我正在寻找一种将基于灰度图像的PDF文件转换为简单的基于黑白文本的PDF文件的方法。

我做了很多尝试，gs但是都没有成功（只有百分之几的恢复）。如果有任何专家有想法，请告诉我。

pdf

— 上将
source

1

您需要一些OCR工具。看看Tesseract ubuntuforums.org/showthread.php?t=880471

— Nikita U.

4

如果您有兴趣按原样保留PDF图像并向其中添加文本，请查看将OCR信息添加到PDF中的问题。

— 科兰2014年

如果您可以发布指向（例如）一页示例的链接，我们可以测试解决方案...

— Rmano

它不是OCR解决方案，但askubuntu.com/a/3387/16395可以提供很多帮助（尽管72dpi偏低，但120分辨率下效果更好）。

— Rmano 2015年

YAGF在Ubuntu 16.04上可以正常工作吗？如果加载图像或pdf文档，程序将中止，而不会出现任何错误消息。在Ubuntu 14.04下，我没有问题。H.Roos

— Hubert Roos

25

gImageReader是GTK +的简单前端tesseract-ocr。

sudo apt-get install gimagereader tesseract-ocr

对不起，德文

— AB
source

4

您还应该安装文件的语言，以改善OCR，用sudo apt-get install tesseract-ocr-[lang]，代替lang由语言代码，例如deu对德语， por葡萄牙语等

— estibordo

1

这个软件很难看。可用性低于零。尽管它试图完成这项工作，但它无法读取类似于电子表格的简单表格。只是错过了包含它们的页面。

— Max Yudin

9

您可以尝试pdfocr：

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

要执行的语法是

 pdfocr -i input.pdf -o output.pdf

其中input.pdf，输入文件和output.pdf输出文件的名称。

默认情况下，它使用Tesseract。要安装它：

 sudo apt-get install tesseract-ocr

pdfocr创建一个嵌入式文本层。

— 拉夫曼诺夫
source

大！有趣的是，执行完上述步骤之后，现在可以在Adobe Acrobat DC中搜索该文件，但不能在Preview中搜索该文件。

— lukeaus

2

此存储库不支持xenial

— Max N

您可以尝试安装旧版本的pdfocr，如果在xenial上安装wily版本则可以正常工作。为此，将“ deb ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main”和“ deb-src ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main”添加到/etc/apt/sources.list中，然后“ sudo apt更新”和“ sudo apt-get install pdfocr”

— rafmunozf

2

pdfocr是一个脚本，它可以自动执行以下过程：1.使用pdftk将PDF文件拆分为单独的页面2.使用pdfimages提取图像数据3.使用楔形文字进行OCR（光学字符识别）4.将检测到的文本重新嵌入到使用hocr2pdf的PDF文件。5.使用pdftk合并文件。（从引用ubuntuforums.org/showthread.php?t=1456756）

— 托米Trussell说

3

pdfsandwich

它会在安装时加载tesseract和其他文件。这是一个简单的一步解决方案，可以编写脚本。它可以hocr2pdf用来创建纯文本pdf，但是还没有准备好黄金时间...。默认使用tesseract并在下面创建一个“夹心” pdf：图像+文本。

可以使用以下命令删除嵌入的图像：

gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf

但是文本是隐藏的，因此看起来像空白页。

将PDF加载到其中LibreOffice Draw会显示文本，并且可以手动删除图像。

— AtesComp
source

我们如何处理导致以下not authorized错误的imagemagick / ghostscript安全问题identify-im6.q16：imagemagick-convert：未经授权aaaa@ error / constitute.c /

— ReadImage

1

对于@AB在ubuntu 14.04上建议的图形界面，请遵循以下步骤：

Obuntu 14.04上的ocr tesseract

或者，将其添加到存储库列表中：

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

在此工作之前：

sudo apt-get install gimagereader

— 米歇尔·阿米特
source

1

你可以尝试shrinkpdf减少文件大小，然后ocr.sh添加文本层。

— 学生
source

-1

在pdf文件中，右键单击并将每个页面保存为图像（或找到一些自动处理所有页面的工具）

打开Ubuntu软件中心。搜索tesseract。这将找到您应该安装的YAGF。在YAGF中，单击文件->打开图像并加载图像。然后单击文件->识别。

我的第一个测试具有100％的准确性。

— Atmelino
source