如何*自动*对来自扫描页面的PDF进行校正和裁剪?[重复]


13

可能重复:
我可以使用哪些免费软件对扫描的图像进行校正

我有几本由书页扫描内容组成的PDF。一次扫描两页,其中一些扫描偏斜,使文本看起来略微倾斜。

我正在寻找一种工具,该工具可以通过对扫描进行偏斜校正而不会损失可读性,从而使我可以进行自动优化。我发现GPL软件Briss可以对扫描进行裁剪,以使页面比例为1:1,而不是2:1,但是我没有任何工具可以对页面进行校正。

我偶然发现了unpaper,这是另一个开源工具,对于我想做的事情似乎很完美,但是该工具仅是Linux,不能直接在PDF文件上运行。

任何提示表示赞赏。


1
@random:为什么这个问题被关闭?为什么该主题需要征集“辩论,争论,民意调查或扩展讨论”?!
Kurt Pfeifle 2012年

1
“寻找工具”对服务的轮询几乎导致了非建设性的关闭原因@kur
random

1
@random:这个问题使我对这个话题进行了一些研究,并且找到了一些有趣的选择。最有趣的是为此使用ImageMagick,它看起来非常简单。不幸的是,您关闭此按钮后,我无法发布我的答案。
Kurt Pfeifle,2012年

@random:我现在稍微编辑了这个问题。希望它现在更符合您的“建设性”意识。
Kurt Pfeifle 2012年

@random:好的,在这种情况下,“作为重复关闭”更适合我。
Kurt Pfeifle 2012年

Answers:


9

看一下偏移校正。这是一个命令行工具。* zip下载似乎包含Windows,MacOSX和Linux的二进制文件。

无论您愿意使用哪种许可证,都可以使用MPL(Mozilla)或LPGL(GNU)。

您的唯一缺点似乎是它不使用PDF,而仅使用PNG和TIFF图像(AFAICS)。这意味着您必须设置s.th的工作流程。喜欢:

 PDF.orig -> PNG.orig -> PNG.deskewed -> PDF.deskewed

我还没有亲自测试过它,但是我最近才浏览该网站并将其添加为书签。


deskew确实在我的测试运行中纠正了与旋转相关的失真,但不幸的是,它在原始图像边框的位置引入了一条细灰线。为了消除灰色边框,我使用的-extent选项裁剪了图像mogrify。我仅在OS X上进行过测试,也许此行为是特定于平台的。
Stefan Schmidt

deskew真的很好 我的工作流程是这样的:pdfimages -all <pdf> my_imagesjbig2 -s -p -v my_images* > outputpdf.py output > deskewed.pdf如果黑色边框(去偏斜操作的结果)使您感到困扰,则可能需要使用imagemagick进行某些处理,例如@StefanSchmidt建议
Tao Tao先生

5

哦,让我补充一个答案。我只记得netpbm。多年没有使用过,但我想我应该换个新外观...

netpbm是命令行中用于处理图形图像的非常强大的工具包。它附带了将近300种不同的工具。它包括用于约100种图形格式的转换器。

并且它还有一个命令行工具可以旋转图像:

pnmrotate

它还有另一个试图发现旋转图像角度的工具:

pamtilt

pamtilt返回其图像旋转猜测的浮点数。因此,图像的自动偏斜应该可以实现。可以编写一个shell脚本来做到这一点。这将需要不同的步骤:

  1. 在Ghostscript的帮助下,将PDF页面转换为适合netpbm的图像格式。
  2. 使用pamtilt自动发现图像的倾斜角度。
  3. 用于pnmrotate使图像偏斜。
  4. 将图像重新转换为PDF。

如果您允许我访问一小部分PDF文件,我可以尝试并提供一个Shell脚本来完成这一壮举。


(我非常想知道[netpbm]在超级用户+堆栈溢出上似乎没有标签。)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.