Answers:
由于docx文件是zip文件,因此您可以解压缩docx文件,然后选择图像文件。
我没有要测试的Microsoft Office,因此我从互联网上下载了一些随机docx文件。图像似乎总是存储在word/media
归档文件的目录中。
此命令将从media
档案库的目录中提取所有文件:
unzip foo.docx "word/media/*"
此命令将仅提取*.jpeg
文件:
unzip foo.docx "*.jpeg"
请注意,您必须指定"*.jpg"
如果文件被保存为jpg
代替jpeg
。我认为图像也可能以其他格式存储。我不知道图像是否可以存储在word/media
目录以外的其他位置。您可以使用unzip -l
列出存档的内容。
doc
格式未压缩。它要么是单片XML要么是二进制Blob。您可以在此处了解更多信息。
将Word文档另存为网页是Windows上用于将所有图像提取到文件夹中的一项技术:http : //support.microsoft.com/kb/555171
可能会遇到很多麻烦,但是也许您可以从命令行控制Linux上的Open Office提取图像,方法可能是转换为网页并以其创建的支持文件夹中的图像结尾。