光学字符识别软件建议?


15

我已经看到一些电子书/论文,显然是从其纸本版本扫描而来的,但这些电子书/论文中的文字可以被惊人地复制掉。我想直接扫描的版本必须已经由某些光学字符识别软件处理过。

所以我想知道推荐的光学字符识别软件是什么?尤其是那些适用于Ubuntu或免费的产品?如果Windows的性能要优越得多,请也告诉我。

我对那些可以接受扫描的pdf文件作为输入并仍产生另一个pdf文件(看起来与输入相同但具有可复制文本)的pdf文件特别感兴趣。

谢谢并恭祝安康!

每个答案请限制一个软件

Answers:


10

Tesseract OCR 安装Tesseract OCR

最初的引擎是由惠普和IBM在80年代后期开发的,但事实证明,它是我使用过的最好的眼识别软件之一。它最近对引擎进行了许多更新,并已成为市场上最全面的OCR工具之一。与大多数其他OCR工具相比(在某些文本匹配中占90%以上),它可以轻松地将标准文档的字体转换为文本。

以下是一个示例:

tesseract ScannedDocument.png out

将产生一个名为out.txt的文件


谢谢!我没有看到Tesseract支持输出pdf。你知道吗
StackExchange

@Tim,我本来就不相信Tesseract支持许多输入/输出格式。但是,正如JanC的答案所述,gscan2pdf将Tesseract用于OCR,顾名思义,它支持PDF输出。
Tim Lytle 2010年

请注意,OCR表示光学字符识别:en.wikipedia.org/wiki/Optical_character_recognition
何塞·戈麦斯

8

另一个应该能够执行此操作的项目是gscan2pdf

sudo apt-get install gscan2pdf

该项目还可以使用Tesseract以及其他开源OCR工具。


3

我不知道任何适用于Ubuntu的OCR,但对于Windows,有一个具有您所需功能的OCR。那是ABBYY FineReader, 这是页面,但它不是免费的


1
我完全按照Tim的要求使用了FineReader(用于打开受保护的PDF)
Extender 2010年

3

免费的解决方案存在于存储库,CunieForm(以及YAGF作为其Gnome前端)中


谢谢!CunieForm是否支持pdf作为输入和输出格式?我没有在其Wikipedia页面和官方页面上看到此内容。
所有

也许没有,但是将PDF拆分为TIFF系列是简单的任务:)
Extender

3

似乎Decapod项目确实或将要导出为PDF,所以Tesseract必须以某种方式导出必要的信息,以了解在何处找到了什么文本。


1

Adobe Acrobat(不是阅读器,不是免费的应用程序)能够对扫描的PDF文档进行OCR处理,并在图像顶部添加不可见的文本层,以便可以选择和复制文本。不幸的是,我没有方便地检查该功能在Acrobat的UI中的确切位置,但是我已经成功地将其用于与您提到的目的相同的几次。

是的,这是Windows软件,而不是Linux,但根据Wine HQ应用程序数据库,它可以在Wine下运行


1

最好的OCR软件通常嵌入在打印机/扫描仪/复印机中。我办公室中的Canon IRC 3880可以比我所知道的任何台式机程序更容易,更快地输出出色的OCR格式的pdf。将书籍放在纸盒上(未装订),选择您的邮件地址,然后按绿色按钮。

您可以在网上找到的大多数OCR pdf都来自类似的机器。问题是价格对于家庭使用而言太高(大约IRC约12000欧元)。



1

OCR进纸器

它是一个GUI应用程序。

在此处输入图片说明

它使用tesseract-ocrocrad作为OCR引擎。

可以通过Software Center

sudo apt-get install ocrfeeder

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.