我想将.pdf
文件转换为文件,.odt
以便进一步将其转换为.doc
文件。是否有任何软件/脚本可以做到这一点。我试图复制文件的内容.pdf
并将其粘贴到liberoffice writer中,但格式未保留。
该文件是机密文件,因此我不希望使用任何在线服务进行转换。
非常感谢您的帮助。
我想将.pdf
文件转换为文件,.odt
以便进一步将其转换为.doc
文件。是否有任何软件/脚本可以做到这一点。我试图复制文件的内容.pdf
并将其粘贴到liberoffice writer中,但格式未保留。
该文件是机密文件,因此我不希望使用任何在线服务进行转换。
非常感谢您的帮助。
Answers:
我也因为缺少免费的PDF到ODT转换器而感到恼火。我什至不需要任何复杂的东西。只是一个生成ODT文件的工具,我可以在LibreOffice中对其进行注释(例如,填写表格)。
我知道如何通过将PDF文档转换为图形文件,然后将其导入LibreOffice来手动执行此操作,但是这很快就很繁琐。
因此,我终于写了一个快速的小shell脚本,该脚本自动执行所有必需的步骤。您可以在https://github.com/gutschke/pdf2odt上找到它
它可以接受任意数量的PDF和图像文件作为输入,并生成可以在LibreOffice中打开和编辑的ODT文件。图像显示为页面背景,因此您可以自由地覆盖它们。每个图像都有自己的页面样式。请记住,插入分页符时,请根据需要调整页面样式。
我在Linux和Mac上都测试了该脚本。鉴于它只需要少量合理的标准工具,因此它应该很轻便。
pdf2oo
几年前曾经使用过,但是现在看来它会为LibreOffice生成损坏的文件。该脚本可以完成更多工作-谢谢!
您可以看一下PDF Utilities
(通过Synaptic或apt-get获得的poppler-utils),其中包括pdftotext:
Poppler是基于Xpdf PDF查看器的PDF渲染库。
该软件包包含用于获取PDF文档信息,将其转换为其他格式或进行操作的命令行实用程序(基于Poppler):
* pdfdetach-列出或提取嵌入式文件(附件)
* pdffonts-字体分析器
* pdfimages-图像提取器
* pdfinfo-文档信息
* pdf单独-页面提取工具
* pdftocairo-使用开罗的PDF到PNG / JPEG / PDF / PS / EPS / SVG转换器
* pdftohtml-PDF到HTML转换器
* pdftoppm-PDF到PPM / PNG / JPEG图像转换器
* pdftops-PDF至PostScript(PS)转换器
* pdftotext-文本提取
* pdfunite-文档合并工具
当然,成功取决于PDF文件的生成方式。如果你得到你想要的东西为文本文件,然后你可以保存该作为的.odt文件。
编辑:我忘了提供报价来源。来自Synaptic的说明标签PDF Utilities (based on Poppler).
pdftohtml
必须最适合该任务,因为HTML可以进行格式化。然后可以将HTML转换为ODT或DOC。
如果安装了poppler-utils软件包,则下面的Nautilus脚本(将作为可执行文件放入〜/ .gnome2 / nautilus-scripts文件夹)将有助于将PDF文件转换为HTML(可以删除选项“ -i”以包括图像),然后可以使用LibreOffice Writer将其打开并保存为ODT,尽管格式转换的成功很大程度上取决于PDF的创建方式。
man pdftohtml
):-noframes : generate no frames. Not supported in complex output mode.
因此-noframes
对-c
set 无效。