适用于Linux的Scan-to-PDF软件？

我有一个工作流程，可以使用Fujitsu ScanSnap S500文档扫描仪将纸质文档扫描成可搜索的PDF 。我不是捆绑软件的忠实拥护者，但是使用起来却非常简单：将一叠纸放在顶部，按绿色按钮，然后出现可搜索的PDF。

现在，我想在Linux（Ubuntu 10.10）上做类似的事情。开箱即用地支持扫描仪。

我看gscan2pdf和XSane：

XSane 看起来功能强大，但并不适合作为工作流解决方案；
gscan2pdf 有点接近“按下按钮，获取PDF”的理想状态，但仍然不是100％的理想状态。

您可以推荐其他任何软件（免费还是其他）？

linux pdf scanning

— NPE
source

我使用pdf杯，但它是图像不可搜索的文本

— RobotHumans 2010年

gscan2pdf的“不是100％在那里”是什么？

— digitxp 2010年

@digitxp我不想用关于任何产品的问题，喜欢和不喜欢的清单来把问题弄得一团糟。但是，gscan2pdf正如您所问的那样，由于我在使用“ unpaper”处理时出现了怪异的伪像，因此OCR几乎无法使用（某些引擎比其他引擎更好），并且总体而言，它不像原始解决方案那样精简。无论如何，我的问题的实质是查看那里还有什么，以便我可以尝试各种解决方案，并找出最适合我的方法。

— NPE 2010年

@digitxp我刚刚重新阅读了之前的评论，听起来很消极。那不是意图。gscan2pdf实际上与我要查找的内容相当接近，但与原始解决方案相比，在某些方面却很遗憾。

— NPE 2010年

这是我在今年早些时候进行研究时发现的一些东西。抱歉，由于我的等级有限，我不能发布多个超链接，因此您必须向Google发送链接。

gscan2pdf

一个非常好的GUI系统，可以将各种OCR引擎用于后端。这可能会满足您的一键式解决方案（而digitxp已经提到过）。

Tesseract OCR引擎

可以与gscan2pdf一起使用。

http://www.linuxjournal.com/article/9676

奥克洛普斯

我对章鱼的了解不多，因为如果没有大量的培训，章鱼就无法识别文本。这可能对书本真的很好，但是对我来说，使用账单之类的东西效果不好。YMMV。

楔形文字

我使用Cuneiform取得了最大的成功，并且能够通过编写类似于以下工作流程的命令来创建可搜索的PDF：

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html

您还需要安装exactimage软件包。

用于OCR'ing PDF的各种开源项目也使用Cuniform和hocr2pdf：

看OCR
档案馆

让我知道你发现了什么！

— 埃里克·霍尔姆伯格
source