Answers:
最初的引擎是由惠普和IBM在80年代后期开发的,但事实证明,它是我使用过的最好的眼识别软件之一。它最近对引擎进行了许多更新,并已成为市场上最全面的OCR工具之一。与大多数其他OCR工具相比(在某些文本匹配中占90%以上),它可以轻松地将标准文档的字体转换为文本。
以下是一个示例:
tesseract ScannedDocument.png out
将产生一个名为out.txt的文件
另一个应该能够执行此操作的项目是gscan2pdf
sudo apt-get install gscan2pdf
该项目还可以使用Tesseract以及其他开源OCR工具。
我不知道任何适用于Ubuntu的OCR,但对于Windows,有一个具有您所需功能的OCR。那是ABBYY FineReader, 这是页面,但它不是免费的
Adobe Acrobat(不是阅读器,不是免费的应用程序)能够对扫描的PDF文档进行OCR处理,并在图像顶部添加不可见的文本层,以便可以选择和复制文本。不幸的是,我没有方便地检查该功能在Acrobat的UI中的确切位置,但是我已经成功地将其用于与您提到的目的相同的几次。
是的,这是Windows软件,而不是Linux,但根据Wine HQ应用程序数据库,它可以在Wine下运行。
最好的OCR软件通常嵌入在打印机/扫描仪/复印机中。我办公室中的Canon IRC 3880可以比我所知道的任何台式机程序更容易,更快地输出出色的OCR格式的pdf。将书籍放在纸盒上(未装订),选择您的邮件地址,然后按绿色按钮。
您可以在网上找到的大多数OCR pdf都来自类似的机器。问题是价格对于家庭使用而言太高(大约IRC约12000欧元)。
理光创新公司提供了我最喜欢的免费在线OCR软件。这是一个Beta程序,但我发现它运行良好。在以下位置进行检查:http : //beta.rii.ricoh.com/betalabs/content/document-conversion
OCR进纸器
它是一个GUI应用程序。
它使用tesseract-ocr或ocrad作为OCR引擎。
可以通过Software Center或
sudo apt-get install ocrfeeder
FineReader也有一个在线版本。它声称能够将PDF作为输入格式进行处理--- http://finereader.abbyyonline.com/cn/Help/Faq/