如何在保留文本的同时删除PDF文档扫描的灰度页面背景?(二值化)


9

我的PDF包含600页的文字图像。它有2层

  • 第1层:背景彩色图像

  • 第2层:文字图片

我想删除整个PDF文件中的所有背景图像层,如图所示。

在此处输入图片说明

您能建议我任何软件/工具吗?

在此处输入图片说明


您正在使用哪个Ubuntu版本?
米奇

Ubuntu 13.10(64位)。
Raghu G

问题描述已更新。
Raghu G

Answers:


9

总览

您正在寻找的是诸如Scan Tailorunpaper之类的工具,它们能够进行阈值处理,去斑点和去噪。两种工具都适用于图像而不是PDF文件,但是您可以使用此答案末尾介绍的工具轻松地在这些应用程序使用的不同格式和PDF之间进行转换。

扫描裁缝

您可以在此处找到视频教程。官方Wiki上提供了更多详细的文档。您可能会对有关黑白输出模式和过滤器设置的页面最感兴趣。

脱纸

我还没有和unpaper自己合作。据我了解,它比ScanTailor具有更多的功能,但是要掌握它也要困难得多。

没有GUI界面,您将不得不依靠命令行开关来完成工作。另一方面,这意味着unpaper可以使用脚本轻松地自动进行转换。

您可以在此处找到有关将扫描转换为黑白并删除背景的一些脚本示例。


使用Unpaper和ScanTailer时的一些有用工具

我没有足够的时间来撰写有关ScanTailor和unpaper¹的完整教程,但是这里有一些有关.pdf这些工具之间的转换以及这些工具所支持的图像格式的说明:

  • 您可以使用pdfimages将PDF文档转换为单页.ppm文件,该文件可以通过读取unpaper

    用法示例:

    pdfimages *.pdf ./extracted-images
  • ScanTailor不会将.ppm文件作为输入。您将不得不将它们转换为另一种格式,如“无损.png优先”。mogrify出的 imagemagick工具套件可以为你做这个。

    用法示例:

    mogrify -format png *.ppm
  • ScanTailor和unpaper的输出格式是单页.tiff文件。为了将它们转换回.pdf我建议使用tiffcptiff2pdf

    用法示例:

    tiffcp *.tiff all.tiff
    tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
    

安装

此命令将安装上述所有工具:

sudo apt-get install scantailor unpaper poppler-utils libtiff-tools

¹:对于阅读此书的任何人,请随时根据ScanTailor和/或无纸化汇编更广泛的答案。


Scantailer可以使用,但只能使用pdf文件。您必须先将其转换为某种图像格式。

@ToDo是的,正如答案中指出的那样:)。
谷氨酰胺

我现在意识到了。最好组织答案,以使每个程序上的所有信息都在一个块中。

@ToDo之所以将这些工具放到一个简单的部分中,最初的原因是因为它们与unpaper和Scantailor都相关。您说得对,但是有点杂乱无章。我认为现在应该会更好
Glutanimate

3

我刚刚找到了一个非常简单的解决方案:

  • 安装gscan2pdf

  • 打开gscan2pdf,然后导入PDF。

  • 工具->阈值。默认的80%对我来说很好。

  • 将PDF保存在其他位置。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.