如何将扫描的PDF转换为带文本的PDF


36

我已经扫描了约80页,转换为灰度pdf(图像格式)。文件的最终大小约为70MB,这非常大。

现在,我正在寻找一种将基于灰度图像的PDF文件转换为简单的基于黑白文本的PDF文件的方法。

我做了很多尝试,gs但是都没有成功(只有百分之几的恢复)。如果有任何专家有想法,请告诉我。


1
您需要一些OCR工具。看看Tesseract ubuntuforums.org/showthread.php?t=880471
Nikita U.

4
如果您有兴趣按原样保留PDF图像并向其中添加文本,请查看将OCR信息添加到PDF中的问题
科兰2014年

如果您可以发布指向(例如)一页示例的链接,我们可以测试解决方案...
Rmano

它不是OCR解决方案,但askubuntu.com/a/3387/16395可以提供很多帮助(尽管72dpi偏低,但120分辨率下效果更好)。
Rmano 2015年

YAGF在Ubuntu 16.04上可以正常工作吗?如果加载图像或pdf文档,程序将中止,而不会出现任何错误消息。在Ubuntu 14.04下,我没有问题。H.Roos
Hubert Roos

Answers:


25

gImageReader是GTK +的简单前端tesseract-ocr

sudo apt-get install gimagereader tesseract-ocr

对不起,德文


4
您还应该安装文件的语言,以改善OCR,用sudo apt-get install tesseract-ocr-[lang],代替lang由语言代码,例如deu对德语, por葡萄牙语等
estibordo

1
这个软件很难看。可用性低于零。尽管它试图完成这项工作,但它无法读取类似于电子表格的简单表格。只是错过了包含它们的页面。
Max Yudin

9

您可以尝试pdfocr:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

要执行的语法是

 pdfocr -i input.pdf -o output.pdf

其中input.pdf,输入文件和output.pdf输出文件的名称。

默认情况下,它使用Tesseract。要安装它:

 sudo apt-get install tesseract-ocr

pdfocr创建一个嵌入式文本层。


大!有趣的是,执行完上述步骤之后,现在可以在Adobe Acrobat DC中搜索该文件,但不能在Preview中搜索该文件。
lukeaus

2
此存储库不支持xenial
Max N

您可以尝试安装旧版本的pdfocr,如果在xenial上安装wily版本则可以正常工作。为此,将“ deb ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main”和“ deb-src ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main”添加到/etc/apt/sources.list中,然后“ sudo apt更新”和“ sudo apt-get install pdfocr”
rafmunozf

2
pdfocr是一个脚本,它可以自动执行以下过程:1.使用pdftk将PDF文件拆分为单独的页面2.使用pdfimages提取图像数据3.使用楔形文字进行OCR(光学字符识别)4.将检测到的文本重新嵌入到使用hocr2pdf的PDF文件。5.使用pdftk合并文件。(从引用ubuntuforums.org/showthread.php?t=1456756
托米Trussell说

3
pdfsandwich

它会在安装时加载tesseract和其他文件。这是一个简单的一步解决方案,可以编写脚本。它可以hocr2pdf用来创建纯文本pdf,但是还没有准备好黄金时间...。默认使用tesseract并在下面创建一个“夹心” pdf:图像+文本。

可以使用以下命令删除嵌入的图像:

gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf

但是文本是隐藏的,因此看起来像空白页。

将PDF加载到其中LibreOffice Draw会显示文本,并且可以手动删除图像。


我们如何处理导致以下not authorized错误的imagemagick / ghostscript安全问题identify-im6.q16imagemagick-convert:未经授权aaaa@ error / constitute.c /
ReadImage

1

对于@AB在ubuntu 14.04上建议的图形界面,请遵循以下步骤:

Obuntu 14.04上的ocr tesseract

或者,将其添加到存储库列表中:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

在此工作之前:

sudo apt-get install gimagereader


-1

在pdf文件中,右键单击并将每个页面保存为图像(或找到一些自动处理所有页面的工具)

打开Ubuntu软件中心。搜索tesseract。这将找到您应该安装的YAGF。在YAGF中,单击文件->打开图像并加载图像。然后单击文件->识别。

我的第一个测试具有100%的准确性。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.