Answers:
请密切注意pooryorick的答案,他在其中指出sleske的答案实际上对于这个特定问题而言是更好的答案。
使用GhostScript。此命令对我有用:
gs -dBATCH -dNOPAUSE -sDEVICE=png16m -dGraphicsAlphaBits=4 -dTextAlphaBits=4 -r150 -sOutputFile=output%d.png input.pdf
有多个png伪设备,它们在颜色深度上有所区别:pngmono,pnggray,png16,png256,png16m和pngalpha。选择最适合您的一个。
您也可以使用jpeg,但是除非遇到磁盘空间问题,否则您想要的OCR品质要尽可能高,而jpeg不是。
GhostScript不再支持gif,但是我无法想象为什么需要gif,而png256支持。
%d
输出文件名是被替换的页面数的变量。(几乎可以肯定是原始数字,而不是PDF中的数字。)
安装Imagemagick。打开一个cmd窗口或终端:
convert myfile.pdf myfile.jpg
对于pdf,test-0.jpg,test-1.jpg等的每一页,输出将是1个jpg文件。
还有pdfimages
从xpdf的工具(可从XpdfReader的网站)。它不会将整个PDF页面转换为图像,而是将从PDF中提取嵌入的图像。
如果PDF包含文本和图像,并且只需要图像,则此功能很有用。同样,它将提取原始格式的图像,因此不会造成质量损失(与渲染整个页面然后将其转换为JPEG的程序不同)。根据您的需求,这可能会很有用。
简单用法:
pdfimages -j -list mydocument.pdf mydocument-images
这将读取输入文件mydocument.pdf
,提取所有图像并将其写入名为的单个文件mydocument-images-0000.jpg
,mydocument-images-0001.jpg
等等。
Option -j
使它可以将嵌入的JPEG压缩图像写为JPEG文件,而不是PBM / PGM / PPM文件(未压缩且很大)。请注意,如果这是将图像存储在PDF输入文件中的方式,则图像仍可以写为PBM / PGM / PPM文件。
您可以使用Adobe Reader进行此操作:
除了提到pdfimages的答案外,所有其他答案都没有提及他们的解决方案实际上是对嵌入的图像进行转码。即,这些解决方案不仅可以提取原始图像,还可以在处理过程中对其进行修改(可能会损害图像)。仅pdfimages提取原始图像。Ghostscript,Imagemagick,Adobe Reader,PDFFill,PDF Xchange Viewer,OS X Preview和大多数其他PDF软件都是如此。
PDFill PDF Tools可能是在Windows 上将PDF转换为图像的简便方法。它使您可以一次导出PDF中的所有页面以分离图像。它还具有许多其他免费功能,如果您购买了商业版或“ Pro”版,则仅在其他PDF查看器中可用。
在下面的屏幕快照中,使用“将PDF转换为图像”按钮(按钮#10)。
如果您需要将图像连接成一张非常高的图像,从而只需要向OCR程序中馈入一个文件,则可以使用IrfanView
此外,PDF Xchange Viewer(免费)将导出到文件。文件→导出→导出到图像。
不仅如此,而且我认为它是Windows上最好的免费PDF查看器,并且具有一些不错的标记功能。我拥有Adobe Acrobat的许可证,除非我进行广泛的编辑(很少这样做),否则我仍然喜欢这样做。
如果文件小于5MB,并且您不担心隐私/机密性,那么可以从http://www.go2convert.com/获得一个方便的在线服务,该服务可以进行很多图形转换(包括pdf到jpeg)
如果图像超出屏幕大小,则可以使用FastStone Capture(“捕获滚动窗口”功能)并将图像另存为JPEG。
您可以查看这篇文章。
它列出了6种将pdf转换为图像的不同方法。
将PDF转换为JPG(网络方式)
用于桌面的PDF至JPG转换器