批量处理许多PDF文件的OCR(还不是OCRed)?[关闭]


9

我使用的是Google桌面搜索(在Vista上),并且我的所有PDF文件都无法在存档文件夹中识别。这是正常的,因为未对“ 包含扫描图像的PDF文件 ”建立索引http://desktop.google.com/support/bin/answer.py?hl=zh_CN&answer=90651

因此,我想对我尚未使用OCRed的许多PDF文件进行OCR。 我的目标:我给程序一个文件夹,它在子文件夹中单独搜索需要转换为PDF-OCRed文件的PDF文件。

注意:过去,如果PDF文件受密码保护,我将使用另一批(付费)工具删除密码:verypdf.com“ pwdremover” http://www.verypdf.com/pwdremover/

有什么想法(不太贵)?

我已经尝试过:当时xp上的Finereader 6 pro,但是没有包含批处理程序... Paperfile paperfile.net使用Tesseract http://code.google.com/p/tesseract-ocr/。但是OCR只是PDF到文本,而不是PDF到PDF!还有另一个项目http://code.google.com/p/ocropus/

提前致谢 ;)


一年后更新:您好,显然“ ABBYY Hot Folder&Scheduling”软件仅包含在ABBYY FineReader(> v。9.0)公司和站点许可证版本中,可能会有所帮助(我没有尝试:600 $!)!Tesseract也应该现在在Windows上工作(对我而言现在还没有成功!;()
Erb

另外,ABBYY FineReader(> v。9.0)Pro版具有自动化任务:您选择主文件夹及其子文件夹,即可完成工作。但是主要的问题是,它会一次打开所有pdf(!!),然后读取它们(= ocr),然后保存一个唯一的pdf文件!因此,如果您有数百个pdf,那么该死的东西对我不起作用!;(太糟糕了,真是一场噩梦!;(
Erb

Answers:


6

tl; dr?从Nuance PowerPDF Advanced开始。

我在2014年12月为一个大型项目的准备工作评估了OCR软件-OCR在成千上万的英语页面上分批完成。如果您愿意花几百美元,则有很多选择。如果只需要转换几百页,则试用版可以帮助您。

许多软件包都希望加载所有输入文件,执行OCR并将这些混乱合并为一个输出。恕我直言,这是完全错误的,我不知道谁会想要。我一直在寻找真正的批处理:每个输入文件一个输出文件,无人值守的操作,别无所求,最后给我详细的报告。剧透警报:我没有发现。

按照字母顺序排列的软件包如下。下面显示的价格是清单,但折扣很多。用我的话说一点准确性。您输入的内容将与我输入的内容不同,因此您的里程肯定会有所不同。

ABBYY Finereader 12 Corporate:$ 400。批处理功能称为“任务管理器”,位于“工具”菜单上。它将处理文件夹(包括子文件夹)中的文件;它将很高兴为每个输入文件创建一个单独的输出文件。它似乎无法保留输入文件夹的层次结构;所有输出文件都转到同一个输出文件夹。在我的测试中,准确性很高,但仍然是我在此处列出的软件包中最低的。

Adobe Acrobat XI:300美元 批处理功能称为“文本识别/多个文件”,可通过单击“工具”(位于主屏幕右上方的第三个工具栏)找到。处理子文件夹,每个输入一个输出。如果找到受密码保护的文件,则停止并显示提示。默认情况下不保留输入目录树;可以通过将输出写入与输入相同的文件夹来实现。在我的测试中,准确性非常好。

Nuance OmniPage Ultimate(aka v19):$ 500。批处理功能称为“ DocuDirect”,它是包装随附的独立程序。它将处理文件夹和子文件夹;如果选择恰好正确的功能,它将把输入目录树保留在输出区域中。每个输入一个输出。停止并要求输入受保护文件的密码。似乎可以充分利用多核处理器来并行运行任务。精度非常。但是批处理程序的稳定性很差;模糊的文档将使它停滞不前,永不恢复,轻松地使批处理脱轨。

Nuance PowerPDF Advanced v1.1(OmniPage Ultimate的后继产品):150美元。批处理功能称为“批处理转换器”,可从“高级处理”选项卡下的主程序访问。它将处理文件夹和子文件夹,在输出中保留输入结构。每个输入一个输出。将使用多个内核,但不会积极使用;这意味着我无法使多核主机饱和。准确性是卓越的,与OmniPage一样好或更好。错误或模糊的文件并未导致其挂起。批处理处理器将纯文本日志文件写入(冲击式)到输出目录。

ReadIris Corporate 14:600美元。批处理功能由“批处理OCR”项调用,通过单击主屏幕上的“来自文件”按钮可以显示该批处理功能。它将处理文件夹和子文件夹,每个输入一个输出,默认情况下,输出目录结构与输入目录结构匹配。停止并要求用户输入无效文件;显然,通过对图像进行OCR处理,无需进一步投诉即可保护所有受保护的文档。准确性非常好,与Acrobat相当。

在我的台式机(仅双核)上,使用我选择的输入,每个程序包至少需要3秒钟来处理页面;有些花了更多。可能能够在具有更多内核的计算机上降低驱动力。

陷阱比比皆是,一定要为它们做好计划:无效的PDF(某些程序包停止),受密码保护的PDF(某些程序包停止,其他程序仍然转换!)和旋转的页面(横向而不是纵向)。如果要使批处理一直运行到完成,则必须非常仔细地为这些软件包准备输入区域。查看GhostScript程序包的“打印为PDF”功能,以了解从PDF删除保护的方法。

批量运行可能会导致内存用尽和挂起问题,即使不应该这样做(啊,可能是内存泄漏)。如果您要进行任何形式的自动化,那么一个大问题就是在事实真相之后发现-无法处理哪些文档,在处理过程中失败等等。这就像台式机软件的人们从未听说过所谓的“日志文件”。

对于这些大众市场套餐,即使是付费客户,最终也很难获得支持。例如,我向一位受尊敬的客户支持代表投诉,称某件包裹(将保持无名状态)悬挂在一些大件物品上。我等了36个小时才放弃:)。他们甜蜜地建议将批处理大小限制为300个文档。那对我来说是完全不可接受的,但是嘿,很快就关闭了支持票,对吧?就是这么重要,对吧?叹。

高温超导


您好克里斯洛特,谢谢您的详细回答。;) 我很感激。;)我们已经超过4年了,但令人难以置信的是,仍然没有一款软件能完美地完成简单的自动OCR并在完成后释放错误的日志文件!...也许我会尝试联系Nuance。
Erb 2015年

现在,我使用旧版本的Acrobat Pro和几个免费软件。这是一个漫长的过程。如果需要,我可以详细说明!但是工作要尽力而为!;)
Erb 2015年

3

Adobe Acrobat将处理PDF文件夹,并且像大多数Adobe产品一样,有30天的试用期
该功能位于“文档”菜单中:

文档> OCR文本重新识别>使用OCR识别多个文件中的文本

从中可以添加文件夹。

在Acrobat X中,该功能如下:

工具>识别文​​本>在多个文件中

谢谢“小菜一碟”。;)如果时间允许,我将尝试一下。我之前在finereader.abbyy.com的试用版中喜欢的是,它可以识别几种不同的语言。;)
Erb 2010年

1

实际上,pdfsandwich已在去年进行了更新,对于我来说,在Linux Mint中安装它一点也不困难。它提供的结果不如Adobe Acrobat,但它是迄今为止我在Linux中找到的唯一可行的解​​决方案。


1
很有意思!我不知道 我正在添加来自en.wikisource.org/wiki/…的链接,并将在将来的某个时间对其进行测试。(实际上还有许多其他解决方案,但我不会在这里开始!)
Nemo

0

尝试WatchOCR。它是一个开源软件包,可以将扫描的图像转换为可文本搜索的pdf。它是免费和开源的,并且具有用于远程管理的漂亮的Web界面。通过正确的配置,它可用于通过smb共享为整个网络创建批处理pdf / ocr服务。不幸的是,它仅是linux。但是您可以将其安装在旧服务器上,然后整个组织就可以使用它。

如果您想在线进行相同操作而不安装任何东西,请尝试PDFCubed.com


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.