13
图像处理以提高tesseract OCR精度
我一直在使用tesseract将文档转换为文本。文档的质量千差万别,我正在寻找有关哪种图像处理可以改善结果的提示。我注意到,像素化程度很高的文本(例如,由传真机生成的文本)对于tesseract来说尤其难以处理-大概字符的所有那些锯齿状边缘都会混淆形状识别算法。 哪种图像处理技术可以提高准确性?我一直在使用高斯模糊对像素化的图像进行平滑处理,并且看到了一些小的改进,但是我希望有一种更具体的技术可以产生更好的结果。说一个调整为黑白图像的滤镜,它将平滑不规则的边缘,然后说一个滤镜,它将增加对比度以使字符更加清晰。 对图像处理新手有何一般提示?