如何减少显示PDF?


52

我已经尝试了几种程序:pdftotext,pdf2txt.py,...所有这些程序都可以从PDF提取文本,但是做得更好的一个程序是“很好” less:PDF的文本布局正确。怎么做呢?是否使用任何库,还是内置了PDF处理?

我问是因为我想以编程方式使用此功能,而不必像外部程序那样运行(我在做python)。

我的系统是:

» less --version
less 458 (GNU regular expressions)
Copyright (C) 1984-2012 Mark Nudelman

less comes with NO WARRANTY, to the extent permitted by law.
For information about the terms of redistribution,
see the file named README in the less distribution.
Homepage: http://www.greenwoodsoftware.com/less

» uname -a
Linux polyphemus 3.13.0-53-generic #89-Ubuntu SMP Wed May 20 10:34:39 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

Answers:


63

您的发行版可能正在使用流行的lesspipe.sh脚本。检查LESSOPEN环境变量。

该脚本存在多种变体。我正在查看Gentoo版本。在其中,您将找到以下行:

*.ps|*.pdf) ps2ascii "$1" || pstotext "$1" || pdftotext "$1" ;;

这意味着它将按显示的顺序尝试这些命令。$1是文件名。

另一个版本使用以下命令:

pdftohtml -stdout "$t" | parsehtml -

15
谢谢,事实证明它正在使用pdftotext -layout $1 -
dangonfast

@ jeckyll2hide您是否找到了以更少的费用获得更好结果的解释?
vvy

@vvy可能是-layout开关。;)
Daniel B
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.