如何将pdf文件转换为odt文件?


32

我想将.pdf文件转换为文件,.odt以便进一步将其转换为.doc文件。是否有任何软件/脚本可以做到这一点。我试图复制文件的内容.pdf并将其粘贴到liberoffice writer中,但格式未保留。

该文件是机密文件,因此我不希望使用任何在线服务进行转换。

非常感谢您的帮助。


相关(但不能重复!):如何将odt转换为pdf?
伊利亚·卡根

1
对于LIBREOFFICE / OpenOffice的特定问题,我建议ask.libreoffice.org
Bucic 2013年

Answers:


15

我也因为缺少免费的PDF到ODT转换器而感到恼火。我什至不需要任何复杂的东西。只是一个生成ODT文件的工具,我可以在LibreOffice中对其进行注释(例如,填写表格)。

我知道如何通过将PDF文档转换为图形文件,然后将其导入LibreOffice来手动执行此操作,但是这很快就很繁琐。

因此,我终于写了一个快速的小shell脚本,该脚本自动执行所有必需的步骤。您可以在https://github.com/gutschke/pdf2odt上找到它

它可以接受任意数量的PDF和图像文件作为输入,并生成可以在LibreOffice中打开和编辑的ODT文件。图像显示为页面背景,因此您可以自由地覆盖它们。每个图像都有自己的页面样式。请记住,插入分页符时,请根据需要调整页面样式。

我在Linux和Mac上都测试了该脚本。鉴于它只需要少量合理的标准工具,因此它应该很轻便。


该脚本制作了每个页面的屏幕截图,并将其绘制为目标格式,感谢脚本Gutschke
Oliver

pdf2oo几年前曾经使用过,但是现在看来它会为LibreOffice生成损坏的文件。该脚本可以完成更多工作-谢谢!
eacousineau 2015年

3
不幸的是,pdf2odt脚本会转换为用作ODT背景的图像格式。不要指望能够“编辑”任何原始文本。
理查德·埃尔金斯

13

您可以看一下PDF Utilities(通过Synaptic或apt-get获得的poppler-utils),其中包括pdftotext

Poppler是基于Xpdf PDF查看器的PDF渲染库。

该软件包包含用于获取PDF文档信息,将其转换为其他格式或进行操作的命令行实用程序(基于Poppler):
* pdfdetach-列出或提取嵌入式文件(附件)
* pdffonts-字体分析器
* pdfimages-图像提取器
* pdfinfo-文档信息
* pdf单独-页面提取工具
* pdftocairo-使用开罗的PDF到PNG / JPEG / PDF / PS / EPS / SVG转换器
* pdftohtml-PDF到HTML转换器
* pdftoppm-PDF到PPM / PNG / JPEG图像转换器
* pdftops-PDF至PostScript(PS)转换器
* pdftotext-文本提取
* pdfunite-文档合并工具

当然,成功取决于PDF文件的生成方式。如果你得到你想要的东西为文本文件,然后你可以保存作为的.odt文件。

编辑:我忘了提供报价来源。来自Synaptic的说明标签PDF Utilities (based on Poppler).


3
此列表pdftohtml必须最适合该任务,因为HTML可以进行格式化。然后可以将HTML转换为ODT或DOC。
imz-伊万·扎哈拉里舍夫(Ivan Zakharyaschev)

10

LibreOffice能够导入.pdf文件。只需在当前版本的LibreOffice中打开它即可获得最佳效果。但是,它将以图形的形式打开文档,您将只能将其转换为支持的图像格式之一,而不能将其转换为Writer文档。

自然,并非所有格式都会保留,但至少会保留一些格式。


1
我最近尝试过,但效果很糟,甚至一点也不保存格式。而且,它使文本根本不可读。
Hi-Angel

3

如果安装了poppler-utils软件包,则下面的Nautilus脚本(将作为可执行文件放入〜/ .gnome2 / nautilus-scripts文件夹)将有助于将PDF文件转换为HTML(可以删除选项“ -i”以包括图像),然后可以使用LibreOffice Writer将其打开并保存为ODT,尽管格式转换的成功很大程度上取决于PDF的创建方式。

http://ubuntuone.com/6xI1afyu6QdQvgdCGn0kym


感谢您提供有用的脚本。只是一小段话(摘自man pdftohtml):-noframes : generate no frames. Not supported in complex output mode.因此-noframes-cset 无效。
谷氨酰胺

2
谢谢,我现在已经从脚本中删除了此冗余选项。似乎由zenity驱动的bash脚本为所有这些选项提供gui会很好;-)
Sadi 2013年

#MHC,看来此资讯有误;如果我们不包括-noframes,我们将为pdf页面获得单独的html文件;所以我再次将其插入到脚本中。
2013年

那很奇怪。那一定是文档中的错误。我将相应地更改脚本副本。感谢您的注意!
谷氨酰胺

3

尝试口径。它将转换为html,然后转换为其他格式。它在很大的文件(183页)上做得很好,要不然我就不得不打印。

就我而言,我将其转换为epub,但出于乐趣,仅将其转换为.docx,结果非常好。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.