培训Tesseract-OCR用于英语字体

我有大约3000个单个单词的小图像，我试图转换为文本。我已经使用安装程序在我的Windows 7机器上安装了tesseract，并通过cmd和powershell成功管理到OCR映像。

 tesseract.exe imagename.png imagename

生成带有转换文本的文本文件。

我得到的结果非常糟糕，只有大约40％的角色被成功转换。我想改进结果。

有谁知道在这个命令中可以给出的可选配置是什么？必需的参数是：

tesseract imagename outputbase [- lang] [configfile [+|-]varfile]...]

也有人可以描述训练程序，我发现很难理解文档。我知道我的文字有时是新的罗马文字。我是否需要为TNR训练它，或者是否已经内置和/或是否可以下载允许tesseract识别它的文件？

ocr tesseract-ocr

— 安德鲁
source

我发现了一些用于培训的文档code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

— andrew

在阅读了@andrew（你）找到的说明后，你不理解哪一部分？你在这个过程中走了多远？

— 埃弗雷特

删除结果的一种方法是预处理它们，例如删除任何偏斜并对它们进行阈值处理。您可以使用开放式简历。之后你可以训练文本

— Pranaysharma
source