批量OCR许多PDF文件
一年前已经在这里讨论过: 批量处理许多PDF文件的OCR(还不是OCRed)? 有没有办法批处理尚未使用OCRed的OCR PDF?我认为这是当前处理两个问题的状态: 批量OCR PDF 视窗 Acrobat –这是将对OCR进行批处理的最直接的ocr引擎。唯一的问题似乎是1)它不会跳过已经是OCRed的文件2)尝试向其扔一些PDF(有些旧)并看着它崩溃。这有点越野车。它会警告您遇到的每个错误(尽管您可以告诉软件不通知。但是,同样,它会在某些类型的PDF上严重死亡,因此您的行程可能会有所不同。 ABBYY FineReader(批处理/扫描快照),Omnipage –这些必须是人类已知的最差的编程软件。如果您可以找到如何完全自动化(无提示)批处理具有相同名称的PDF的 OCR,请在此处发布。看来,我能找到的唯一解决方案在某个地方失败了-重命名,不完全自动化等。充其量,有一种方法可以做到这一点,但是文档和编程是如此恐怖,以至于您永远找不到。 ABBYY FineReader Engine,ABBYY识别服务器 -这些确实是更多的企业解决方案,您可能最好让acrobat在文件夹上运行并尝试清除会给您带来错误/崩溃程序的pdf文件,而不是像尝试那样麻烦安装评估软件(假设您是简单的最终用户)。对于小型用户而言,似乎没有成本竞争力。 ** Autobahn DX工作站**该产品的价格是如此昂贵,您可能可以购买6份杂技演员。并不是真正的最终用户解决方案。如果您是企业设置,这对您来说值得。 的Linux WatchOCR –不再开发,基本上不可能在现代Ubuntu发行版上运行 pdfsandwich –不再开发,基本上不可能在现代Ubuntu发行版上运行 ** ABBY LINUX OCR **-这应该可以编写脚本,并且似乎有一些不错的效果: http://www.splitbrain.org/blog/2010-06/15-linux_ocr_software_comparison 但是,就像它们按页面收费的许多其他这些ABBYY产品一样,您最好使Acrobat Batch OCR正常工作。 ** Ocrad,GOCR,OCRopus,tesseract,** –这些可能有用,但存在一些问题: 对于其中的一些,OCR结果不如acrobat好(请参见上面的链接)。 这些程序均不接受PDF文件并输出PDF文件。您必须创建一个脚本并首先分解PDF,然后在每个脚本上运行程序,然后将文件重新组合为pdf。 完成后,您可能会像我一样发现(tesseract)创建了一个移过的OCR层。因此,如果您搜索单词“ the”,则会在该单词旁边看到一个突出的部分。 批处理DjVu →转换为PDF –尚未研究,但似乎是一个可怕的解决方案。 线上 PDFcubed.com –来了,不是真正的批处理解决方案。 ABBYY Cloud OCR-不确定这是否真的是一个批处理解决方案,无论哪种方式,您都必须按页面付费,这可能会变得很昂贵。 …