是否可以将PDF文档转换为电子书格式,例如epub,azw或mobi?我正在寻找一个转换速度快的应用程序。我刚试过机芯。10分钟后,转化率甚至不到2%。所以请不要口径。首选CLI。
是否可以将PDF文档转换为电子书格式,例如epub,azw或mobi?我正在寻找一个转换速度快的应用程序。我刚试过机芯。10分钟后,转化率甚至不到2%。所以请不要口径。首选CLI。
Answers:
我必须对一个PDF文件执行一次,这就是结果(使用poppler的pdftohtml):
#!/bin/bash
pwddir="`pwd`"
tmpdir="`mktemp -d`"
pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index
cd "$tmpdir"
sed -e :a -e '$!N;s/\n/ /;ta' \
-i index.html
sed -e 's@ @ @g' \
-e 's@<hr>@ @g' \
-e 's@<br/>\s*<br/>@</p><p>@g' \
-e 's@<br/>@ @g' \
-i index.html
tidy -utf8 -i -wrap 9999999 -m index.html
sed -e 's@<a name="[^"]*"></a>@@g' \
-i index.html
rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *
将拉链送入口径,然后转换为EPUB。过滤所有CSS属性(例如颜色,字体)。
每个PDF文件都是不同的-没有确定的解决方案。上面的方法适用于一种特定情况-您必须弱化pdftohtml / pdftotext,然后调整输出以适合您的需求。
如果失败了,而您不得不求助于OCR,则我的楔形文字很幸运。但也可以尝试tesseract,ocrad,gocr。但是,所有这些都需要体力劳动才能取得良好的效果。