是否有任何工具以类似于Acrobat的OCR功能的方式自动执行扫描的PDF文件的OCR?[关闭]


10

首选开源,但不是必需的。

我已经安装了Adobe Acrobat 8​​,并且真的很喜欢OCR功能,该功能实际上可以在扫描文档的顶部放置一个不可见的OCR文字层。因此,您在屏幕上看到的是原始扫描的文档,但结果是可搜索的。

我正在寻找一种自动化此过程的方法。我目前有一些用于处理和存档扫描文件的脚本,并且正在寻找可以插入到此批处理过程中的内容,以类似于Acrobat的方式进行OCR。

欢迎所有建议,谢谢!


1
PS-我确实尝试在超级用户上保留用户级问题。但是,由这个问题导致的实现肯定会存在于我已经处理了扫描文档的服务器上……所以这是一个折衷。
博登

Answers:


8

我已经在公司文档归档项目中实现了此功能。扫描的文件是tif文件(单页)。然后使用Cuneiform创建单个tif的hocr文件。然后使用hocr2pdf输出PDF文件。如果有多个扫描页面,我将使用gs将PDF合并为一个PDF文档。OCR确实运行良好,可以满足我们的需求,并且可以在任何PDF查看器中搜索。


有趣。在花太多时间查看它之前,生成的PDF是原始扫描中带有嵌入式文本层的图像,还是仅文本?
博登

它是带有嵌入式文本层的原始扫描图像。hocr文件是带有html标记的文本输出。
至强

优秀的。我要试一下。如果看起来可以,我将标记您的回答为接受。谢谢!
博登

1
再次感谢。安装这两个家伙有些痛苦,但是它正在工作。我写了一个简单的脚本来检查FTP文件夹中是否有新的.tif文件,在该文件上运行cuneiform和hocr2pdf,然后使用curl将结果上传到sharpoint文档库中。因此,人们可以直接从复印机存档文档,并且存档可以全文搜索。问题:您知道hocr2pdf中的“分辨率覆盖”选项是什么吗?
博登

我很高兴为您工作。我不知道-r参数可以。
至强

1

您看过WatchOCR吗?您可以从http://www.watchocr.com下载它这是一个免费的开放源代码OCR服务器,它可以将仅图像pdf转换为来自监视文件夹或网络共享的可文本搜索的pdf。


0

尽管OCRopus听起来很有趣,但我喜欢xeon的回答。


当我研究和测试不同的解决方案时。我尝试过使用tesseract-ocr,当时它们还没有很好的方式输出到PDF。我还没有研究过它们是否具有这些功能...我知道tesseract-ocr在其时间表中有此功能...
xeon
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.