Answers:
我已经在公司文档归档项目中实现了此功能。扫描的文件是tif文件(单页)。然后使用Cuneiform创建单个tif的hocr文件。然后使用hocr2pdf输出PDF文件。如果有多个扫描页面,我将使用gs将PDF合并为一个PDF文档。OCR确实运行良好,可以满足我们的需求,并且可以在任何PDF查看器中搜索。
您看过WatchOCR吗?您可以从http://www.watchocr.com下载它。这是一个免费的开放源代码OCR服务器,它可以将仅图像pdf转换为来自监视文件夹或网络共享的可文本搜索的pdf。