Answers:
总览
您正在寻找的是诸如Scan Tailor和unpaper之类的工具,它们能够进行阈值处理,去斑点和去噪。两种工具都适用于图像而不是PDF文件,但是您可以使用此答案末尾介绍的工具轻松地在这些应用程序使用的不同格式和PDF之间进行转换。
扫描裁缝
您可以在此处找到视频教程。官方Wiki上提供了更多详细的文档。您可能会对有关黑白输出模式和过滤器设置的页面最感兴趣。
脱纸
我还没有和unpaper
自己合作。据我了解,它比ScanTailor具有更多的功能,但是要掌握它也要困难得多。
没有GUI界面,您将不得不依靠命令行开关来完成工作。另一方面,这意味着unpaper
可以使用脚本轻松地自动进行转换。
您可以在此处找到有关将扫描转换为黑白并删除背景的一些脚本示例。
使用Unpaper和ScanTailer时的一些有用工具
我没有足够的时间来撰写有关ScanTailor和unpaper¹的完整教程,但是这里有一些有关.pdf
这些工具之间的转换以及这些工具所支持的图像格式的说明:
您可以使用pdfimages
将PDF文档转换为单页.ppm
文件,该文件可以通过读取unpaper
。
用法示例:
pdfimages *.pdf ./extracted-images
ScanTailor不会将.ppm
文件作为输入。您将不得不将它们转换为另一种格式,如“无损.png
优先”。mogrify
出的 imagemagick
工具套件可以为你做这个。
用法示例:
mogrify -format png *.ppm
ScanTailor和unpaper的输出格式是单页.tiff
文件。为了将它们转换回.pdf
我建议使用tiffcp
和tiff2pdf
。
用法示例:
tiffcp *.tiff all.tiff
tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
安装
此命令将安装上述所有工具:
sudo apt-get install scantailor unpaper poppler-utils libtiff-tools
¹:对于阅读此书的任何人,请随时根据ScanTailor和/或无纸化汇编更广泛的答案。
也许Master PDF编辑器可以为您提供帮助,尽管我仍然找不到能在600页上自动执行此操作的方法。