如何将纸质文档的照片转换为扫描的文档?


44

我的扫描仪坏了!我确实有一个不错的相机,所以我已经为要扫描的文档拍摄了几张照片……但是它们看起来像纸质照片,而不是扫描的文档:

  • 图像不平整
  • 甚至没有照明(阴影随着页面翘曲等)
  • 显然,文本没有被处理为可复制粘贴的PDF文本。

它们根本不适合专业用途,但是距离很近。

我正在寻找可以完成以上任何一项或全部任务的某事(或方法),因此我可以从许多JPG文件转到整个事情的单个(可选)带注释的PDF,格式正确(A4通常)。

有什么建议(除了外出购买新的扫描仪)?


1
在Android上,Google的云端硬盘应用程序可以进行一些处理,并从一组图像中获得A4大小的PDF(创建新的“扫描”)-应用黑白和一点矫直(在应用程序上同时创建),看起来大部分是(低质量)扫描。OCR是一个比较困难的问题。
大师

不知道任何Ubuntu软件,但是在发现手机上的应用程序大多数都执行相同的操作后,我放弃了扫描仪。您可能需要查看Genius Scan应用程序(对于Android)或Scannable(对于iPhone)。然后将pdfjoin它们缝在一起。虽然没有OCR。
2015年

我想通过照片而非移动应用程序执行此操作的原因是,我的dSLR [字面意义]比手机的相机好约一千倍。而且,如果没有一口气可以做到这一点,我实际上认为我可以自己处理OCR。有很多开源项目做得很好。
奥利(Oli)

我可能刚刚用粘胶带,烤面包和果酱使扫描仪恢复了活力,因此紧迫性消失了,但是我认为这仍然是一个有趣的问题。
奥利(Oli)

奥利(Oli),我在Stackexchange上搜索了一些示例,例如tex.stackexchange.com/questions/94523/simulate-a-scanned-paperstackoverflow.com/questions/8955425/…只是不确定我是否正确回答了您的问题;)
JoKeR 2015年

Answers:


45

有几种方法可以做到这一点。尽管我所有建议的方式都存在一个问题,但它们并不能真正使您的照片变平。仍然需要或多或少的好图片。

一种简单的方法是您尝试使用ScanTailor软件

sudo apt-get install scantailor 

您需要完成6个步骤来优化照片。在最后一步,您可以选择“均衡照明”选项,这将为您提供漂亮的外观!


我个人通常只使用GIMP。但是您需要一些基本技能才能达到目标。

sudo apt-get install gimp 
  1. 以通缉的方式裁剪图片
  2. 使用Colors-> Curves选项以所需的方式操纵颜色输出...

调整颜色曲线以获得清晰的输出。


另一个不错的小程序是gscan2pdf,您还可以在其中加载照片并将其导出为PDF。甚至还有GIMP的链接,因此您可以按照上述步骤来改进照片

sudo apt-get install gscan2pdf 

1
以前从未见过ScanTailor。似乎几乎是完美的,除了我无法弄清楚如何将其保存为我想要保留的内容(例如PDF)。有任何想法吗?
奥利(Oli)

PS:欢迎询问Ubuntu和Stack Exchange!
奥利(Oli)

1
@Oli输出将保存在开始时选择的文件夹中。正如我现在所看到的,它将其保存为tiff。因此,您想convert file.tiff file.pdf在控制台中运行。
wittich 2015年

2
哦,是的,我不好。我正在使用多个页面,因此我将使用将它们转换为png,find -maxdepth 1 -name '*.tif' -exec convert {} {}.png \;然后使用将它们加入pdfjoin --outfile output.pdf --a4paper --rotateoversize false *.png。当我忘记如何做所有事情时,请大声思考:)再次感谢。
奥利(Oli)

2
ScanTailor是一个发现!我通常会在Gimp或诸如gimp之类的专有应用程序中执行所有这些操作,但是扫描裁缝仅具有将图像转换为扫描图像的功能,从而消除了所有噪点:)比我以前使用的所有曲线容易得多在金普移动。非常感谢你 !!!
Kostyantyn

20

为了从文档的相机照片生成可打印的副本或PDF,我们必须手动转换很多图像才能获得与扫描仪输出相似的图像。这些转换大多数都可以通过Gimp完成。

  1. 尽量让最好的,你可以原始的源图像:

    • 选择明亮的灯光以减少像素噪声,但为避免反射,渗色或不均匀的光散射,请不要使用闪光灯,除非您有摄影棚闪光灯设备。
    • 如果可能,请选择至少从两侧(顶底或右-左)点亮光源
    • 使用远摄而不是使用广角镜,可以从更远的距离拍摄照片。
    • 使用三脚架避免晃动文物。
    • 将相机对准光源的表面。
    • 在原始来源的边界处留一些空间。
  2. 考虑降低饱和度到灰度,以获得更好的对比度并消除彩色像素伪像。

    在此处输入图片说明

  3. 调整亮度和对比度,使大概的灰色背景变为白色,黑色字母变为黑色。

    • 可以使用“ Gimp 颜色”>“色阶”工具快速完成此操作,在该工具中,我们可以拖动黑点(左)和白点(右),或者使用颜色选择器选择黑/白点。

    在此处输入图片说明

    • 如果不同时删除文本的某些部分,则无法去除弯角上的阴影(请参见6.)。
  4. 消除垫变形?

    根据我们使用的照相镜头质量和变焦级别,我们可能会有一些缓冲伪影,从而导致文档外部边界弯曲。有一些插件也可以消除这些伪像,但是我们可能会发现选择相机的缩放级别(仅将它们最小化)更快。裁剪后(5.),我们甚至可能不再注意到它们。因此,仅当源图像的外部部分有很多直线时,才需要去除缓冲伪影。

  5. 如果需要,可以旋转裁剪透视变换图像。

    与扫描仪不同,我们的相机可能无法使源平行于图像边界。Gimp 旋转透视图工具将为我们提供视觉反馈,以便能够旋转或调整图像的透视图,直到文本行与页面平行为止。

    在此处输入图片说明
    右侧的透视工具

现在,我们可以使用矩形选择工具选择文档来源,以在文档内部裁剪图像。

  1. 去除相机镜头弯曲,折痕或渐晕伪影所产生的不需要的阴影

    • 这些阴影很难去除,并且没有插件或自动过滤器可以帮助我们。
    • 从理论上讲,我们可以在这些区域上覆盖渐变填充,但它可能无法产生预期的结果,因此可能不值得我们花费时间。
    • 因此,最快的方法是简单地使用橡皮擦工具删除文本之外的所有丑陋阴影(我们应该保留这些阴影)。

      在此处输入图片说明 删除-> 在此处输入图片说明

  2. 缩放图片?

    根据相机分辨率,将图像放大到扫描仪图像大小只会增加文件大小,而对图像质量没有好处。按比例缩小将删除详细信息。因此,我们不应该缩放图像,而是通过打印机对话框(或下面的8)调整打印尺寸。

  3. 产生PDF

    我们可以将现在可以很好地手动还原的图像导入LibreOffice(“ 插入”>“媒体”)到

    • 定义尺寸
    • 导出为PDF
    • 打印(对我而言,从LibreOffice进行打印比其他任何事情都能更频繁地获得期望的结果)。

非常感谢您的详细步骤。他们帮助我解决了将照片转换为扫描文档的长期问题。透视变换的力量给我留下了深刻的印象。
Chethan S.

很棒的答案!起初,透视工具让我感到困惑,因此这是一个很好的指南。我添加了4条指导线,然后使用透视工具对图像的各个角落进行填充,直到图像与所有4条指导线对齐为止。
加布里埃尔·斯台普斯

(24小时后)。糟糕!我忘了链接。这是我正在谈论的指南:lifewire.com/…
加布里埃尔·斯台普斯

1

如果您已经有文档的图像,只需将CamScanner应用程序下载到您的手机/平板电脑即可。它将允许您导入图像,然后进行建议的裁剪并允许您展平以及调整颜色/对比度等。仅需一分钟。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.