如何从Linux的Word文档中提取图像


6

是否有(Linux)命令行工具可以从MS Word文档中提取所有图像(最好是可以处理.docx格式的图像)?


这是仅具有UI或命令行的linux版本吗?
Jeff F.

@Jeff-命令行实用程序对于大型批处理模式操作将很有用。
钩上

Answers:


16

由于docx文件是zip文件,因此您可以解压缩docx文件,然后选择图像文件。

我没有要测试的Microsoft Office,因此我从互联网上下载了一些随机docx文件。图像似乎总是存储在word/media归档文件的目录中。

此命令将从media档案库的目录中提取所有文件:

unzip foo.docx "word/media/*"

此命令将仅提取*.jpeg文件:

unzip foo.docx "*.jpeg"

请注意,您必须指定"*.jpg"如果文件被保存为jpg代替jpeg。我认为图像也可能以其他格式存储。我不知道图像是否可以存储在word/media目录以外的其他位置。您可以使用unzip -l列出存档的内容。


多数民众赞成在有用!您知道这是否适用于较旧的.doc格式吗?
钩上

3
较旧的doc格式未压缩。它要么是单片XML要么是二进制Blob。您可以在此处了解更多信息。
lesmana 2011年

0

将Word文档另存为网页是Windows上用于将所有图像提取到文件夹中的一项技术:http : //support.microsoft.com/kb/555171

可能会遇到很多麻烦,但是也许您可以从命令行控制Linux上的Open Office提取图像,方法可能是转换为网页并以其创建的支持文件夹中的图像结尾。


我发现这个问题。我的某些图像变成了EMZ文件-我相信是压缩的EMF。注意在Windows 10系统上可以打开EMZ(未在Linux机器上尝试过)。但是,将* .docx重命名为* .zip并将其打开可以提供对EMF文件的访问,然后我可以方便地使用它。
ScottWelker
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.