如何将pdf文件转换为odt文件？

32

我想将.pdf文件转换为文件，.odt以便进一步将其转换为.doc文件。是否有任何软件/脚本可以做到这一点。我试图复制文件的内容.pdf并将其粘贴到liberoffice writer中，但格式未保留。

该文件是机密文件，因此我不希望使用任何在线服务进行转换。

非常感谢您的帮助。

format-conversion

— 安奇
source

相关（但不能重复！）：如何将odt转换为pdf？

— 伊利亚·卡根

1

对于LIBREOFFICE / OpenOffice的特定问题，我建议ask.libreoffice.org

— Bucic 2013年

15

我也因为缺少免费的PDF到ODT转换器而感到恼火。我什至不需要任何复杂的东西。只是一个生成ODT文件的工具，我可以在LibreOffice中对其进行注释（例如，填写表格）。

我知道如何通过将PDF文档转换为图形文件，然后将其导入LibreOffice来手动执行此操作，但是这很快就很繁琐。

因此，我终于写了一个快速的小shell脚本，该脚本自动执行所有必需的步骤。您可以在https://github.com/gutschke/pdf2odt上找到它

它可以接受任意数量的PDF和图像文件作为输入，并生成可以在LibreOffice中打开和编辑的ODT文件。图像显示为页面背景，因此您可以自由地覆盖它们。每个图像都有自己的页面样式。请记住，插入分页符时，请根据需要调整页面样式。

我在Linux和Mac上都测试了该脚本。鉴于它只需要少量合理的标准工具，因此它应该很轻便。

— 古奇克
source

该脚本制作了每个页面的屏幕截图，并将其绘制为目标格式，感谢脚本Gutschke

— Oliver

我pdf2oo几年前曾经使用过，但是现在看来它会为LibreOffice生成损坏的文件。该脚本可以完成更多工作-谢谢！

— eacousineau 2015年

3

不幸的是，pdf2odt脚本会转换为用作ODT背景的图像格式。不要指望能够“编辑”任何原始文本。

— 理查德·埃尔金斯

13

您可以看一下PDF Utilities（通过Synaptic或apt-get获得的poppler-utils），其中包括pdftotext：

Poppler是基于Xpdf PDF查看器的PDF渲染库。

该软件包包含用于获取PDF文档信息，将其转换为其他格式或进行操作的命令行实用程序（基于Poppler）：
* pdfdetach-列出或提取嵌入式文件（附件）
* pdffonts-字体分析器
* pdfimages-图像提取器
* pdfinfo-文档信息
* pdf单独-页面提取工具
* pdftocairo-使用开罗的PDF到PNG / JPEG / PDF / PS / EPS / SVG转换器
* pdftohtml-PDF到HTML转换器
* pdftoppm-PDF到PPM / PNG / JPEG图像转换器
* pdftops-PDF至PostScript（PS）转换器
* pdftotext-文本提取
* pdfunite-文档合并工具

当然，成功取决于PDF文件的生成方式。如果你得到你想要的东西为文本文件，然后你可以保存该作为的.odt文件。

编辑：我忘了提供报价来源。来自Synaptic的说明标签PDF Utilities (based on Poppler).

3

此列表pdftohtml必须最适合该任务，因为HTML可以进行格式化。然后可以将HTML转换为ODT或DOC。

— imz-伊万·扎哈拉里舍夫（Ivan Zakharyaschev）

10

LibreOffice能够导入.pdf文件。只需在当前版本的LibreOffice中打开它即可获得最佳效果。但是，它将以图形的形式打开文档，您将只能将其转换为支持的图像格式之一，而不能将其转换为Writer文档。

自然，并非所有格式都会保留，但至少会保留一些格式。

— 折弯机
source

1

我最近尝试过，但效果很糟，甚至一点也不保存格式。而且，它使文本根本不可读。

— Hi-Angel

3

如果安装了poppler-utils软件包，则下面的Nautilus脚本（将作为可执行文件放入〜/ .gnome2 / nautilus-scripts文件夹）将有助于将PDF文件转换为HTML（可以删除选项“ -i”以包括图像），然后可以使用LibreOffice Writer将其打开并保存为ODT，尽管格式转换的成功很大程度上取决于PDF的创建方式。

http://ubuntuone.com/6xI1afyu6QdQvgdCGn0kym

— 萨迪
source

感谢您提供有用的脚本。只是一小段话（摘自man pdftohtml）：-noframes : generate no frames. Not supported in complex output mode.因此-noframes对-cset 无效。

— 谷氨酰胺

2

谢谢，我现在已经从脚本中删除了此冗余选项。似乎由zenity驱动的bash脚本为所有这些选项提供gui会很好；-)

— Sadi 2013年

#MHC，看来此资讯有误；如果我们不包括-noframes，我们将为pdf页面获得单独的html文件；所以我再次将其插入到脚本中。

— 2013年

那很奇怪。那一定是文档中的错误。我将相应地更改脚本副本。感谢您的注意！

— 谷氨酰胺

3

尝试口径。它将转换为html，然后转换为其他格式。它在很大的文件（183页）上做得很好，要不然我就不得不打印。

就我而言，我将其转换为epub，但出于乐趣，仅将其转换为.docx，结果非常好。

— 克里斯托弗
source