我正在使用pdftotext(poppler-utils的一部分)将PDF文档转换为文本。它在大多数情况下都有效,但是我希望做的一件事是在单独的段落之间插入空白行,而不是将它们混在一起。
有没有办法让pdftotext做到这一点?如果不是,是否还有另一个可以将pdf转换为文本的工具?
PDF to audio software for academic papers?
软件
我正在使用pdftotext(poppler-utils的一部分)将PDF文档转换为文本。它在大多数情况下都有效,但是我希望做的一件事是在单独的段落之间插入空白行,而不是将它们混在一起。
有没有办法让pdftotext做到这一点?如果不是,是否还有另一个可以将pdf转换为文本的工具?
PDF to audio software for academic papers?
软件
Answers:
如果您使用的是pdftotext,则可以使用该-layout
标志保留输入的pdf文件中页面上文本的布局:
pdftotext -layout input.pdf output.txt
-r
(分辨率,默认为72 dpi)下的点(像素)
作为开源(和自动化)的爱好者,我不想这么说,但是我刚得到的最好结果(在相当大的复杂PDF上)是在Adobe Reader中打开它,然后选择“文件” |“另存为文本”。
(我正在为文本分析实验做预处理,而不是作为读者,但是我认为我的第一和第二选择是相同的。)
我一直在并排比较输出。我的第二选择是电子书转换。
Adobe:留在FF中用于换页符,留在页面编号中,尚未将标题/段落转换为单行,但具有固定的连字符。PDF中隐藏的垃圾没有得到输出。在部分开头正确地获得大资本,例如“ The”,“ T he”甚至“ T he”。
ebook-convert:页码左,页眉/页脚中有一些隐藏的垃圾(但没有FF)。将大多数段落转换为单行。它错过的是双倍行距!项目符号并不总是与文本对齐。在本章的开头正确获得了“ The”。
pdftotext(不带--layout):不错,项目符号对齐,但页眉/页脚有杂音。FF在那里。连字符已删除。最糟糕的一章大写字母开头:“ T \ n \ nhe”。
pdftotext(带有--layout):相似,但缩进更多。“ T he”作为本章的开始。
pdftohtml >> pdfreflow >> htmltotext:它删除了页码,但是在页眉/页脚中仍然是垃圾。“ T he”作为本章的开始。连字符已删除。(它在每个段落中使用多行,但是它们与其他版本中的换行符不同!)
ebook-convert
工作正常。