如何将图像PDF文件另存为图像?


33

我有一个包含文档扫描图像的PDF。我想将此PDF的内容另存为图像,以便可以通过仅接受.jpg,.png和.gif类型文件的OCR程序运行它。

如何将该PDF保存/转换为这些图像格式之一?

编辑:我发现要执行此操作的一种方法是单击每个页面上。复制到剪贴板。粘贴到Paint.net,然后保存。但是,这很麻烦,因为您似乎只能在Acrobat Reader中一次选择一页。

Answers:


20

请密切注意pooryorick的答案,他在其中指出sleske的答案实际上对于这个特定问题而言是更好的答案。


使用GhostScript。此命令对我有用:

gs -dBATCH -dNOPAUSE -sDEVICE=png16m -dGraphicsAlphaBits=4 -dTextAlphaBits=4 -r150 -sOutputFile=output%d.png input.pdf

有多个png伪设备,它们在颜色深度上有所区别:pngmono,pnggray,png16,png256,png16m和pngalpha。选择最适合您的一个。

您也可以使用jpeg,但是除非遇到磁盘空间问题,否则您想要的OCR品质要尽可能高,而jpeg不是。

GhostScript不再支持gif,但是我无法想象为什么需要gif,而png256支持。


我喜欢GhostScript,如果您想使用GUI来方便设置选项,查看等,请尝试GSview pages.cs.wisc.edu/~ghost/gsview
Dennis 2009年

输出结果将是一个巨大的图像吗?
Xonatron 2015年

1
@Xonatron:不。每页一张图像。该%d输出文件名是被替换的页面数的变量。(几乎可以肯定是原始数字,而不是PDF中的数字。)
wfaulk

20

安装Imagemagick。打开一个cmd窗口或终端:

convert myfile.pdf myfile.jpg

对于pdf,test-0.jpg,test-1.jpg等的每一页,输出将是1个jpg文件。


对于ImageMagick,为+1,但对于错误的工作建议为-2。JPEG对照片有好处,但是当具有清晰的像素和高对比度时(与通常在白色背景上使用黑色文本/字符时一样),它是最差的格式。另外,ImageMagick本身不会执行转换工作,它在后台使用Ghostscript作为其“代理”从属。因此,直接使用Ghostscript进行操作可让您更好地控制所使用的参数。为克里斯着想,然后选择TIFF(不是JPEG)作为输出格式!
Kurt Pfeifle

1
在Windows上注意,请确保首先安装32位Ghostscript。
用户

2
要注意的densitydepthquality标志,可以帮助您优化输出。例如:convert -density 300 -depth 8 -quality 85 a.pdf a.png 更多信息
尼克

13

还有pdfimagesxpdf的工具(可从XpdfReader的网站)。它不会将整个PDF页面转换为图像,而是将从PDF中提取嵌入的图像

如果PDF包含文本和图像,并且只需要图像,则此功能很有用。同样,它将提取原始格式的图像,因此不会造成质量损失(与渲染整个页面然后将其转换为JPEG的程序不同)。根据您的需求,这可能会很有用。


简单用法:

pdfimages -j -list mydocument.pdf mydocument-images

这将读取输入文件mydocument.pdf,提取所有图像并将其写入名为的单个文件mydocument-images-0000.jpgmydocument-images-0001.jpg等等。

Option -j使它可以将嵌入的JPEG压缩图像写为JPEG文件,而不是PBM / PGM / PPM文件(未压缩且很大)。请注意,如果这是将图像存储在PDF输入文件中的方式,则图像仍可以写为PBM / PGM / PPM文件。


作为参考,使用简单,pdfimages -j "yourinputfile.pdf" "outputimages"这将使“outputimages-0000.ppm”(或“outputimages-0000.jpg”如果他们是正确的格式)。可以从此处此处
drzaus

需要注意的是,它可能无法将文件另存为JPG,而是保存为PPM
drzaus

11

您可以使用Adobe Reader进行此操作:

  1. 单击图像。它将突出显示。
  2. 复制(Ctrl-C)并将其粘贴到Paint中。
  3. 另存为您喜欢的任何文件类型。

2
有趣的是,Adobe Reader的设置可以覆盖使用快照工具拍摄的图像的dpi,当设置为300dpi时,您将获得准备打印的快照(默认情况下,屏幕分辨率较低,通常太低了)以便在其他工作中重复使用)
Stijn Sanders,2009年

3
为简单起见,+ 1。大多数PDF阅读器都允许您执行此操作。
Decio Lira

4
如果您的PDF有10000页图像怎么办?您必须这样做10000次吗?
盖伊,

9

除了提到pdfimages的答案外,所有其他答案都没有提及他们的解决方案实际上是对嵌入的图像进行转码。即,这些解决方案不仅可以提取原始图像,还可以在处理过程中对其进行修改(可能会损害图像)。仅pdfimages提取原始图像。Ghostscript,Imagemagick,Adobe Reader,PDFFill,PDF Xchange Viewer,OS X Preview和大多数其他PDF软件都是如此。


考虑到问题的背景,这实际上是一个很好的观点。
wfaulk

FWIW,“ PDFill PDF Tools”确实允许您为图像另存设置DPI,非常方便。这样,每个页面(从文本,图像,任何对象开始)都被保存到例如4961x6520的高分辨率PNG中。
克里斯·奥

4

PDFill PDF Tools可能是在Windows 上将PDF转换为图像的简便方法。它使您可以一次导出PDF中的所有页面以分离图像。它还具有许多其他免费功能,如果您购买了商业版或“ Pro”版,则仅在其他PDF查看器中可用。

在下面的屏幕快照中,使用“将PDF转换为图像”按钮(按钮#10)。

PDFill PDF Tools屏幕截图

如果您需要将图像连接成一张非常高的图像,从而只需要向OCR程序中馈入一个文件,则可以使用IrfanView


请注意,这将在您的系统上安装两个不同的工具。主要的是PDFill编辑器,这是您不需要的。进入开始菜单以打开该菜单。屏幕截图让我省了下来,因为我意识到在卸载之前出了点问题。
ufotds 2011年

是的,我想我没有提到它还安装了PDFill Editor的共享软件版本以及PDF打印机。除非您以$ 19.99的价格购买该编辑器,否则使用PDFill Editor创建的任何文件都将带有水印,但是PDFill PDF Tools Free实用程序不需要购买。在我拥有的版本中,您不能同时卸载PDFill PDF Tools Free来卸载PDFill Editor,但是安装PDFill Editor并没有任何害处。

2

由于您没有包含OS标签,因此我将包含OSX答案:

默认情况下,PDF在Preview.app中打开,您可以使用File -> Save-As

  • GIF
  • 集成电路
  • JPEG格式
  • JPEG-2000
  • 骨形态发生蛋白
  • OpenEXR
  • 的Photoshop
  • PNG
  • TGA
  • TIFF

1

此外,PDF Xchange Viewer(免费)将导出到文件。文件→导出→导出到图像。

不仅如此,而且我认为它是Windows上最好的免费PDF查看器,并且具有一些不错的标记功能。我拥有Adobe Acrobat的许可证,除非我进行广泛的编辑(很少这样做),否则我仍然喜欢这样做。


这看起来很有希望,直到我发现密码保护的PDF禁用了导出到图像的选项。
米奇

1

(非免费)Acrobat Professional会执行以下操作:

高级->文档处理->导出所有图像...


0

如果文件小于5MB,并且您不担心隐私/机密性,那么可以从http://www.go2convert.com/获得一个方便的在线服务,该服务可以进行很多图形转换(包括pdf到jpeg)


刚刚尝试过,它给出了此错误消息“对不起!此图像无法正确转换。”
盖伊2009年

-1

如果图像超出屏幕大小,则可以使用FastStone Capture(“捕获滚动窗口”功能)并将图像另存为JPEG。

替代文字


这是获取图像的一种非常round回的方式。OP已经有了更好的解决方案(Acrobat中的标记页)。
sleske '16

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.