培训Tesseract-OCR用于英语字体


3

我有大约3000个单个单词的小图像,我试图转换为文本。我已经使用安装程序在我的Windows 7机器上安装了tesseract,并通过cmd和powershell成功管理到OCR映像。

 tesseract.exe imagename.png imagename 

生成带有转换文本的文本文件。

我得到的结果非常糟糕,只有大约40%的角色被成功转换。我想改进结果。

有谁知道在这个命令中可以给出的可选配置是什么?必需的参数是:

tesseract imagename outputbase [- lang] [configfile [+|-]varfile]...]

也有人可以描述训练程序,我发现很难理解文档。我知道我的文字有时是新的罗马文字。我是否需要为TNR训练它,或者是否已经内置和/或是否可以下载允许tesseract识别它的文件?


我发现了一些用于培训的文档code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3
andrew

在阅读了@andrew(你)找到的说明后,你不理解哪一部分?你在这个过程中走了多远?
埃弗雷特

Answers:


0

删除结果的一种方法是预处理它们,例如删除任何偏斜并对它们进行阈值处理。您可以使用开放式简历。之后你可以训练文本

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.