我有一个PDF文件,其中包含我在其中工作的建筑物的地图:
http://www.libsys.und.edu/dev/FloorPlans_All.pdf
原始源文件已经丢失,因此我被要求提取地图图像,最好不要在其上覆盖文字和图标。事实证明,这很烦人。
到目前为止,我已经尝试了以下GUI程序:
- Adobe Reader:我可以选择文本,但不能选择背景图像
- FoxIt PDF Viewer:我可以选择文本,但不能选择背景图像
- Ubuntu 10.10上的XPDF:让我选择文本,但不选择背景图像
以及以下命令行程序:
- pdfimages:提取表示浴室很好的图标,但不提取背景图像
- pdftohtml:与pdfimages相同,另外它使标记为HTML文档的文档质量较差
- pdfextract:与pdfimages相同
- 转换:成功保存图像,但文本已被烧入图像
我什至尝试过在文本编辑器中手动打开PDF,并通过将流对象粘贴到新文件中并将其保存为.jpg,.png或.bmp扩展名(依次依次保存)来提取流对象。考虑到我对PDF文件的内部结构了解甚少,因此这不起作用也就不足为奇了。
那么...有什么办法可以在不获取文本和图标的情况下从此东西中检索地图图像?
qpdf
尽可能将二进制部分转换为ASCII。(2)使用文本编辑器使所有我不想在屏幕上或打印输出中看到的文本变为不可见(可以很容易地实现,并且通过切换不可见标志不会损坏XRef表)。(3)用Ghostscript重新提取结果,以尽可能缩小其大小。-不幸的是,您的文件不再可下载以演示过程……