过滤某种“半色调”图像以进行OCR处理

10

我有一个扫描的PDF资料，要向其中添加隐藏的文字层，因此可以对文档建立索引。我使用了ghostscript黑白tiff输出设备（tiffg4）将页面提取为tiff图像，下面是它们的外观示例：

在此处输入图片说明

用tesseract处理此图像不会产生良好的结果。
更改ghostscript输出DPI（600、300、150、96）表明，在96 DPI下的图像可从tesseract获得最佳效果，但仍不令人满意。

现在我想征求意见，哪种过滤器可以增强此图像的OCR处理能力。

我可以使用imagemagick或numpy / scipy / ndimage

image-processing ocr

— zetah
source

9

您真正需要的可能是一些形态学操作，例如扩张然后腐蚀。这称为关闭操作。可能是您的情况-扩张本身可能很好。

以前曾问过类似的问题-可以在其他方面提供帮助。

— 迪潘·梅塔（Dipan Mehta）
source

2

您可以使用低通滤波器将其删除。这要么是在频率空间中完成的，要么就是采用图像高斯的（差异）。

— 克里斯多夫·拉克维兹
source