我有一个扫描的PDF资料,要向其中添加隐藏的文字层,因此可以对文档建立索引。我使用了ghostscript黑白tiff输出设备(tiffg4)将页面提取为tiff图像,下面是它们的外观示例:

用tesseract处理此图像不会产生良好的结果。
更改ghostscript输出DPI(600、300、150、96)表明,在96 DPI下的图像可从tesseract获得最佳效果,但仍不令人满意。
现在我想征求意见,哪种过滤器可以增强此图像的OCR处理能力。
我可以使用imagemagick或numpy / scipy / ndimage