适用于Linux的Scan-to-PDF软件?


18

我有一个工作流程,可以使用Fujitsu ScanSnap S500文档扫描仪将纸质文档扫描成可搜索的PDF 。我不是捆绑软件的忠实拥护者,但是使用起来却非常简单:将一叠纸放在顶部,按绿色按钮,然后出现可搜索的PDF。

现在,我想在Linux(Ubuntu 10.10)上做类似的事情。开箱即用地支持扫描仪。

我看gscan2pdfXSane

  • XSane 看起来功能强大,但并不适合作为工作流解决方案;
  • gscan2pdf 有点接近“按下按钮,获取PDF”的理想状态,但仍然不是100%的理想状态。

您可以推荐其他任何软件(免费还是其他)?


我使用pdf杯,但它是图像不可搜索的文本
RobotHumans 2010年

1
gscan2pdf的“不是100%在那里”是什么?
digitxp 2010年

@digitxp我不想用关于任何产品的问题,喜欢和不喜欢的清单来把问题弄得一团糟。但是,gscan2pdf正如您所问的那样,由于我在使用“ unpaper”处理时出现了怪异的伪像,因此OCR几乎无法使用(某些引擎比其他引擎更好),并且总体而言,它不像原始解决方案那样精简。无论如何,我的问题的实质是查看那里还有什么,以便我可以尝试各种解决方案,并找出最适合我的方法。
NPE 2010年

@digitxp我刚刚重新阅读了之前的评论,听起来很消极。那不是意图。gscan2pdf实际上与我要查找的内容相当接近,但与原始解决方案相比,在某些方面却很遗憾。
NPE 2010年

Answers:


18

这是我在今年早些时候进行研究时发现的一些东西。抱歉,由于我的等级有限,我不能发布多个超链接,因此您必须向Google发送链接。

gscan2pdf

一个非常好的GUI系统,可以将各种OCR引擎用于后端。这可能会满足您的一键式解决方案(而digitxp已经提到过)。

Tesseract OCR引擎

可以与gscan2pdf一起使用。

奥克洛普斯

我对章鱼的了解不多,因为如果没有大量的培训,章鱼就无法识别文本。这可能对书本真的很好,但是对我来说,使用账单之类的东西效果不好。YMMV。

楔形文字

我使用Cuneiform取得了最大的成功,并且能够通过编写类似于以下工作流程的命令来创建可搜索的PDF:

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html  

您还需要安装exactimage软件包。

用于OCR'ing PDF的各种开源项目也使用Cuniformhocr2pdf

  • 看OCR
  • 档案馆

让我知道你发现了什么!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.