tl; dr?从Nuance PowerPDF Advanced开始。
我在2014年12月为一个大型项目的准备工作评估了OCR软件-OCR在成千上万的英语页面上分批完成。如果您愿意花几百美元,则有很多选择。如果只需要转换几百页,则试用版可以帮助您。
许多软件包都希望加载所有输入文件,执行OCR并将这些混乱合并为一个输出。恕我直言,这是完全错误的,我不知道谁会想要。我一直在寻找真正的批处理:每个输入文件一个输出文件,无人值守的操作,别无所求,最后给我详细的报告。剧透警报:我没有发现。
按照字母顺序排列的软件包如下。下面显示的价格是清单,但折扣很多。用我的话说一点准确性。您输入的内容将与我输入的内容不同,因此您的里程肯定会有所不同。
ABBYY Finereader 12 Corporate:$ 400。批处理功能称为“任务管理器”,位于“工具”菜单上。它将处理文件夹(包括子文件夹)中的文件;它将很高兴为每个输入文件创建一个单独的输出文件。它似乎无法保留输入文件夹的层次结构;所有输出文件都转到同一个输出文件夹。在我的测试中,准确性很高,但仍然是我在此处列出的软件包中最低的。
Adobe Acrobat XI:300美元 批处理功能称为“文本识别/多个文件”,可通过单击“工具”(位于主屏幕右上方的第三个工具栏)找到。处理子文件夹,每个输入一个输出。如果找到受密码保护的文件,则停止并显示提示。默认情况下不保留输入目录树;可以通过将输出写入与输入相同的文件夹来实现。在我的测试中,准确性非常好。
Nuance OmniPage Ultimate(aka v19):$ 500。批处理功能称为“ DocuDirect”,它是包装随附的独立程序。它将处理文件夹和子文件夹;如果选择恰好正确的功能,它将把输入目录树保留在输出区域中。每个输入一个输出。停止并要求输入受保护文件的密码。似乎可以充分利用多核处理器来并行运行任务。精度非常好。但是批处理程序的稳定性很差;模糊的文档将使它停滞不前,永不恢复,轻松地使批处理脱轨。
Nuance PowerPDF Advanced v1.1(OmniPage Ultimate的后继产品):150美元。批处理功能称为“批处理转换器”,可从“高级处理”选项卡下的主程序访问。它将处理文件夹和子文件夹,在输出中保留输入结构。每个输入一个输出。将使用多个内核,但不会积极使用;这意味着我无法使多核主机饱和。准确性是卓越的,与OmniPage一样好或更好。错误或模糊的文件并未导致其挂起。批处理处理器将纯文本日志文件写入(冲击式)到输出目录。
ReadIris Corporate 14:600美元。批处理功能由“批处理OCR”项调用,通过单击主屏幕上的“来自文件”按钮可以显示该批处理功能。它将处理文件夹和子文件夹,每个输入一个输出,默认情况下,输出目录结构与输入目录结构匹配。停止并要求用户输入无效文件;显然,通过对图像进行OCR处理,无需进一步投诉即可保护所有受保护的文档。准确性非常好,与Acrobat相当。
在我的台式机(仅双核)上,使用我选择的输入,每个程序包至少需要3秒钟来处理页面;有些花了更多。可能能够在具有更多内核的计算机上降低驱动力。
陷阱比比皆是,一定要为它们做好计划:无效的PDF(某些程序包停止),受密码保护的PDF(某些程序包停止,其他程序仍然转换!)和旋转的页面(横向而不是纵向)。如果要使批处理一直运行到完成,则必须非常仔细地为这些软件包准备输入区域。查看GhostScript程序包的“打印为PDF”功能,以了解从PDF删除保护的方法。
批量运行可能会导致内存用尽和挂起问题,即使不应该这样做(啊,可能是内存泄漏)。如果您要进行任何形式的自动化,那么一个大问题就是在事实真相之后发现-无法处理哪些文档,在处理过程中失败等等。这就像台式机软件的人们从未听说过所谓的“日志文件”。
对于这些大众市场套餐,即使是付费客户,最终也很难获得支持。例如,我向一位受尊敬的客户支持代表投诉,称某件包裹(将保持无名状态)悬挂在一些大件物品上。我等了36个小时才放弃:)。他们甜蜜地建议将批处理大小限制为300个文档。那对我来说是完全不可接受的,但是嘿,很快就关闭了支持票,对吧?就是这么重要,对吧?叹。
高温超导