15

我已经看到一些电子书/论文，显然是从其纸本版本扫描而来的，但这些电子书/论文中的文字可以被惊人地复制掉。我想直接扫描的版本必须已经由某些光学字符识别软件处理过。

所以我想知道推荐的光学字符识别软件是什么？尤其是那些适用于Ubuntu或免费的产品？如果Windows的性能要优越得多，请也告诉我。

我对那些可以接受扫描的pdf文件作为输入并仍产生另一个pdf文件（看起来与输入相同但具有可复制文本）的pdf文件特别感兴趣。

谢谢并恭祝安康！

每个答案请限制一个软件

software-recommendation

— 蒂姆
source

10

Tesseract OCR

最初的引擎是由惠普和IBM在80年代后期开发的，但事实证明，它是我使用过的最好的眼识别软件之一。它最近对引擎进行了许多更新，并已成为市场上最全面的OCR工具之一。与大多数其他OCR工具相比（在某些文本匹配中占90％以上），它可以轻松地将标准文档的字体转换为文本。

以下是一个示例：

tesseract ScannedDocument.png out

将产生一个名为out.txt的文件

— 丹尼斯
source

谢谢！我没有看到Tesseract支持输出pdf。你知道吗

— StackExchange

@Tim，我本来就不相信Tesseract支持许多输入/输出格式。但是，正如JanC的答案所述，gscan2pdf将Tesseract用于OCR，顾名思义，它支持PDF输出。

— Tim Lytle 2010年

请注意，OCR表示光学字符识别：en.wikipedia.org/wiki/Optical_character_recognition

— 何塞·戈麦斯

8

另一个应该能够执行此操作的项目是gscan2pdf

sudo apt-get install gscan2pdf

该项目还可以使用Tesseract以及其他开源OCR工具。

— Mark Kirby
source

3

我不知道任何适用于Ubuntu的OCR，但对于Windows，有一个具有您所需功能的OCR。那是ABBYY FineReader， 这是页面，但它不是免费的

— vicmp3
source

1

我完全按照Tim的要求使用了FineReader（用于打开受保护的PDF）

— Extender 2010年

3

免费的解决方案存在于存储库，CunieForm（以及YAGF作为其Gnome前端）中

— 延伸器
source

谢谢！CunieForm是否支持pdf作为输入和输出格式？我没有在其Wikipedia页面和官方页面上看到此内容。

— 所有

也许没有，但是将PDF拆分为TIFF系列是简单的任务：)

— Extender

3

似乎Decapod项目确实或将要导出为PDF，所以Tesseract必须以某种方式导出必要的信息，以了解在何处找到了什么文本。

— JanC
source

1

Adobe Acrobat（不是阅读器，不是免费的应用程序）能够对扫描的PDF文档进行OCR处理，并在图像顶部添加不可见的文本层，以便可以选择和复制文本。不幸的是，我没有方便地检查该功能在Acrobat的UI中的确切位置，但是我已经成功地将其用于与您提到的目的相同的几次。

是的，这是Windows软件，而不是Linux，但根据Wine HQ应用程序数据库，它可以在Wine下运行。

— 塞尔吉·布罗斯拉夫斯基（Serge Broslavsky）
source

1

最好的OCR软件通常嵌入在打印机/扫描仪/复印机中。我办公室中的Canon IRC 3880可以比我所知道的任何台式机程序更容易，更快地输出出色的OCR格式的pdf。将书籍放在纸盒上（未装订），选择您的邮件地址，然后按绿色按钮。

您可以在网上找到的大多数OCR pdf都来自类似的机器。问题是价格对于家庭使用而言太高（大约IRC约12000欧元）。

— 哈维尔·里维拉（Javier Rivera）
source

1

理光创新公司提供了我最喜欢的免费在线OCR软件。这是一个Beta程序，但我发现它运行良好。在以下位置进行检查：http : //beta.rii.ricoh.com/betalabs/content/document-conversion

— 娜塔莉（Natalie）
source

1

OCR进纸器

它是一个GUI应用程序。

在此处输入图片说明

它使用tesseract-ocr或ocrad作为OCR引擎。

可以通过Software Center或

sudo apt-get install ocrfeeder

— 用户名
source

0

FineReader也有一个在线版本。它声称能够将PDF作为输入格式进行处理--- http://finereader.abbyyonline.com/cn/Help/Faq/

— 德克斯尼克
source

光学字符识别软件建议？

Tesseract OCR