我有大约3000个单个单词的小图像,我试图转换为文本。我已经使用安装程序在我的Windows 7机器上安装了tesseract,并通过cmd和powershell成功管理到OCR映像。
tesseract.exe imagename.png imagename
生成带有转换文本的文本文件。
我得到的结果非常糟糕,只有大约40%的角色被成功转换。我想改进结果。
有谁知道在这个命令中可以给出的可选配置是什么?必需的参数是:
tesseract imagename outputbase [- lang] [configfile [+|-]varfile]...]
也有人可以描述训练程序,我发现很难理解文档。我知道我的文字有时是新的罗马文字。我是否需要为TNR训练它,或者是否已经内置和/或是否可以下载允许tesseract识别它的文件?
我发现了一些用于培训的文档code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3
—
andrew
在阅读了@andrew(你)找到的说明后,你不理解哪一部分?你在这个过程中走了多远?
—
埃弗雷特