Answers:
只需使用DJView并导出为PDF
根据需要打开djvu文件。
选择打印---->打印以
将.ps更改为.pdf,然后单击打印。
安装
djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3
转到终端并编写
sudo apt-get install libtiff-tools
转到存在djvu文件的目录。单击鼠标右键。转到“在终端中打开”选项。点击它。终端将打开。
在那个终端写
ddjvu -format=tiff file_name.djvu file_name.tiff
tiff2pdf -j -o file_name.pdf file_name.tiff
还有一个在线转换器DjVu到PDF转换器
这是一种方法,需要一些不太常用的工具:
我们可以使用djvu2hocr
命令(从ocrodjvu
包中)从DjVu文件中提取隐藏的文本层(它不执行任何OCR或类似操作,它仅提取具有几何形状的文本层),即:
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
干预会纠正输出hOCR中的类名称(这只是简单的HTML文件)
现在,我们使用以下命令将DjVu页面提取为TIFF格式:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
这样我们就可以将这些文件放入工作文件夹中:
sample.djvu
pg10.html
pg10.tif
这是pdfbeads
发挥作用的地方,我们简单执行:
pdfbeads -o pg10.pdf
然后,这个漂亮的程序会处理此文件夹中的所有内容(具有相同基本名称的HTML和TIFF文件),并生成带有一些副产品的输出PDF文件:
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
与输入的DjVu文件相同,并且在其中包含文本层:
评论摘要:
下面冗长的评论讨论将DjVu文档页面中的较小图像表示为单独的对象,这是不容易实现的,因为DjVu文档页面本身只是具有可选文本层的单个图像,没有关于较小图像作为单独对象的“信息”。如果DjVu文档具有彩色图像,则通常将它们放置在背景层上;在这种情况下,用户可以利用ddjvu
(仅提取背景层)和imagemagick
(自动裁剪)之类的工具来仅输出图像而不是整个画布,但是无法自动创建PDF输出
另一种更合理但较慢的方法是使用常规的OCR GUI工具。gscan2pdf
建议(> 1.0)作为Linux PC的可能候选者
使用DJVULibre,可以通过以下terminal
命令提取文本层:
djvutxt myfile.djvu > myfile-ocr.txt
要么 djvused myfile.djvu -e 'print-pure-txt' > myfile.txt
(两者都做同样的事情,并且在这里找到)
格式化需要一些努力(因为许多符号未正确转换)并且图片无法恢复。
http://www.djvu-pdf.com/-使用此网站,您可以将djvu转换为pdf。
最简单的方法:使用gscan2pdf导入djvu,然后使用tesseract对其进行OCR,最后将其另存为pdf。pdf中的OCR文本可能与原始djvu略有不同,并且转换可能需要一段时间,但是这种方法很简单,并且可以使用。
我写了一个@zetah的答案脚本。
它可以在这里找到:https : //gist.github.com/matthieuheitz/7287e214b1aeda7948f6c27fbfb5288b