我已经尝试了几种程序:pdftotext,pdf2txt.py,...所有这些程序都可以从PDF提取文本,但是做得更好的一个程序是“很好” less
:PDF的文本布局正确。怎么做呢?是否使用任何库,还是内置了PDF处理?
我问是因为我想以编程方式使用此功能,而不必像外部程序那样运行(我在做python)。
我的系统是:
» less --version
less 458 (GNU regular expressions)
Copyright (C) 1984-2012 Mark Nudelman
less comes with NO WARRANTY, to the extent permitted by law.
For information about the terms of redistribution,
see the file named README in the less distribution.
Homepage: http://www.greenwoodsoftware.com/less
» uname -a
Linux polyphemus 3.13.0-53-generic #89-Ubuntu SMP Wed May 20 10:34:39 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux
pdftotext -layout $1 -