过滤某种“半色调”图像以进行OCR处理


10

我有一个扫描的PDF资料,要向其中添加隐藏的文字层,因此可以对文档建立索引。我使用了ghostscript黑白tiff输出设备(tiffg4)将页面提取为tiff图像,下面是它们的外观示例:

在此处输入图片说明

用tesseract处理此图像不会产生良好的结果。
更改ghostscript输出DPI(600、300、150、96)表明,在96 DPI下的图像可从tesseract获得最佳效果,但仍不令人满意。

现在我想征求意见,哪种过滤器可以增强此图像的OCR处理能力。

我可以使用imagemagick或numpy / scipy / ndimage

Answers:



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.