如何将pdf转换为电子书格式


8

是否可以将PDF文档转换为电子书格式,例如epub,azw或mobi?我正在寻找一个转换速度快的应用程序。我刚试过机芯。10分钟后,转化率甚至不到2%。所以请不要口径。首选CLI。

Answers:


6

您应该尝试一下pdftotext(该软件包位于Ubuntu下poppler-utils)。它是一个命令行转换器。它假定PDF具有文本,并且不只包含图像。

如果PDF文件包含图像(没有OCR信息),则必须使用OCR解决方案,这要慢得多。

我还成功地对加扰的PDF文本使用了OCR方法(通过以非线性方式在页面上放置各个字符)。然后,您可以使用例如pdftoppm获取页面的单独图像并对其进行OCR。


6

我通常使用Caliber来转换各种格式(epub,mobi和pdf)。转换起来非常简单,这是屏幕截图,还有其他内容视频教程

屏幕截图

   口径


3
“请不要口径”的哪一部分不清楚?
mlp

5
在任何SE网站上回答问题时,您都将为OP和将来发现此问答环节的任何人提供服务。该答案旨在涵盖这些个人的所有基础。同样,口径可能是最好的选择,可能是OP的版本有问题配置错误。我已经使用了数十次,并且在转换方面做得很好。
slm

我无法将pfd文件转换为固定布局的epub。您能否告诉我,按照固定格式将pdf转换为epub需要执行哪些步骤。
mohan rathour

1

我必须对一个PDF文件执行一次,这就是结果(使用poppler的pdftohtml):

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@ @ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

将拉链送入口径,然后转换为EPUB。过滤所有CSS属性(例如颜色,字体)。

每个PDF文件都是不同的-没有确定的解决方案。上面的方法适用于一种特定情况-您必须弱化pdftohtml / pdftotext,然后调整输出以适合您的需求。

如果失败了,而您不得不求助于OCR,则我的楔形文字很幸运。但也可以尝试tesseract,ocrad,gocr。但是,所有这些都需要体力劳动才能取得良好的效果。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.