我想扫描我身边的大量纸张,以尽量减少麻烦。我想使用简单扫描将其转换为图像,然后使用OCR将其转换为文本。是否有一个好的带有GUI的OCR应用程序,只要按一下按钮就可以给我带来很好的效果?
我想扫描我身边的大量纸张,以尽量减少麻烦。我想使用简单扫描将其转换为图像,然后使用OCR将其转换为文本。是否有一个好的带有GUI的OCR应用程序,只要按一下按钮就可以给我带来很好的效果?
Answers:
CLARA是另一个不错的图形选项。
KOOKA from 是一个KDE应用程序,但是可以正常工作,此外,您还必须安装实际的OCR程序,例如GOCR和OCRAD。在安装Kooka和OCR程序之后,必须将Kooka指向OCR的安装位置,以便它能够将JPEG转换为文本。
Tesseract from 是命令行实用程序,使用非常简单。您可以从 此处安装语言包 tesseract-ocr-eng。
看一下这个页面。
注意:
要运行tesseract goto终端并输入以下内容
tesseract imagefile.tif outputfile.txt
Tesseract只能读取TIFF文件-如果您有JPEG或PDF或其他格式,则必须对其进行转换。另外,文件扩展名必须是.tif,而不是.tiff,否则会出现tesseract错误。
tesseract
(在Ubuntu 15.10上为3.04.00)PNG
输入文件没有问题。它接受JPG
文件,但给它们带来更糟糕的结果,就像人们从其他压缩工件中所期望的那样。
您可以使用几种流行的OCR命令行工具(我不确定它们是否具有GUI):
Tesseract(自述文件,常见问题解答)(Python)
也可用于:Tesseract .NET,Tesseract iOS
OCR引擎是1985年至1995年在HP实验室开发的,现在是Google。Tesseract可能是可用的最准确的开源OCR引擎。
用法:
tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
开源字符识别。它将扫描的文本图像转换回文本文件。GOCR可以与不同的前端一起使用,这使得移植到不同的OS和体系结构非常容易。它可以打开许多不同的图像格式,并且其质量每天都在提高。
OCRopus ™(常见问题解答)(用Python,NumPy和SciPy编写)
OCR系统专注于使用大型机器学习解决文档分析中的问题,具有可插拔布局分析,可插拔字符识别,统计自然语言建模和多语言功能。
OCRopus引擎基于两个研究项目:90年代中期开发并由美国人口普查局部署的高性能手写识别器,以及新颖的高性能布局分析方法。
OCRopus是Google赞助的开发项目,最初旨在进行高通量,大容量的文档转换工作。我们希望它对于许多其他应用也将是一个出色的OCR系统。
Tessnet2(开源,OCR,Tesseract,.NET,DOTNET,C#,VB.NET,C ++ / CLI)
Tesseract是C ++开源OCR引擎。Tessnet2是.NET程序集,它公开了执行OCR的非常简单的方法。Tessnet2已获得Apache 2许可(例如tesseract),这意味着您可以随意使用它,它已包含在商业产品中。
很少有人使用:适用于Linux的ABBYY CLI OCR,Asprise OCR
有关更完整的列表,请检查:Wikipedia上的光学字符识别软件列表
多页PDF或扫描文档上的OCR
这可能是最简单的方法。Gscan2pdf是一种图形工具,不仅可以扫描文件,还可以导入文件并对其执行OCR。从Ubuntu Software Center 此处 ,从此处安装gscan2pdf或在终端中运行以下命令:
sudo apt-get install gscan2pdf
Gscan2PDF可以使用可定制的OCR引擎,默认为 tesseract-ocr
您可以考虑选择适当的语言。在这种情况下,您将需要安装tesseract-ocr-LANG
软件包,其中LANG
是三个字母的ISO 639-2语言代码。现在,您在16.04版本上有108种语言。
我刚刚在pdfocr.rb上取得了成功(低于16.04)。这已在Ubuntu Wiki上列出
这是一个PPA,但16.04的存储库未更新。上面来自github的ruby脚本仍然可以与16.04一起使用。
您可以从Github下载它。您将需要安装以下软件包:
ruby tesseract-ocr pdftk exactimage
然后使pdfocr.rb可执行并运行:
./pdfocf.rb -i source.pdf -o output.pdf
(可选)您可以使用-l LANG
参数。在这种情况下,您将需要安装tesseract-ocr-LANG
软件包,其中LANG
是三个字母的ISO 639-2语言代码。现在,您在16.04版本上有108种语言。
最好和最简单的方法是使用pypdfocr
它不会更改pdf。pypdfocr是此处的python模块链接。
pypdfocr your_document.pdf
最后,您将获得your_document_ocr.pdf
可搜索文本的另一种方式。该应用程序不会改变图像的质量。通过添加覆盖文本,稍微增加文件的大小。
我认为该命令非常简单,不需要任何GUI。也许安装pypdfocr会更加冗长:
sudo apt install tesseract-ocr
pip install pypdfocr
pypdfocr
自2016年以来不再受支持,我注意到由于未得到维护而出现了一些问题。ocrmypdf
(模块做一个辅助工作,可以这样使用:
ocrmypdf in.pdf out.pdf
安装:
pip install ocrmypdf
要么
apt install ocrmypdf
eng
作为选择列出...但是我解决了!:) sudo apt install tesseract-ocr-eng
在终端上运行就可以了。如果在gimageReader的帮助文件中或github上的“ README” ...或其他地方中进行了说明,那就太好了。也许像这里。