批量处理许多PDF文件的OCR（还不是OCRed）？[关闭]

9

我使用的是Google桌面搜索（在Vista上），并且我的所有PDF文件都无法在存档文件夹中识别。这是正常的，因为未对“ 包含扫描图像的PDF文件 ”建立索引（http://desktop.google.com/support/bin/answer.py?hl=zh_CN&answer=90651）

因此，我想对我尚未使用OCRed的许多PDF文件进行OCR。 我的目标：我给程序一个文件夹，它在子文件夹中单独搜索需要转换为PDF-OCRed文件的PDF文件。

注意：过去，如果PDF文件受密码保护，我将使用另一批（付费）工具删除密码：verypdf.com“ pwdremover” http://www.verypdf.com/pwdremover/

有什么想法（不太贵）？

我已经尝试过：当时xp上的Finereader 6 pro，但是没有包含批处理程序... Paperfile paperfile.net使用Tesseract http://code.google.com/p/tesseract-ocr/。但是OCR只是PDF到文本，而不是PDF到PDF！还有另一个项目http://code.google.com/p/ocropus/

提前致谢 ;）

pdf ocr desktop-search

— b
source

一年后更新：您好，显然“ ABBYY Hot Folder＆Scheduling”软件仅包含在ABBYY FineReader（> v。9.0）公司和站点许可证版本中，可能会有所帮助（我没有尝试：600 $！）！Tesseract也应该现在在Windows上工作（对我而言现在还没有成功！;（）

— Erb

另外，ABBYY FineReader（> v。9.0）Pro版具有自动化任务：您选择主文件夹及其子文件夹，即可完成工作。但是主要的问题是，它会一次打开所有pdf（!!），然后读取它们（= ocr），然后保存一个唯一的pdf文件！因此，如果您有数百个pdf，那么该死的东西对我不起作用！;（太糟糕了，真是一场噩梦！;（

— Erb

6

tl; dr？从Nuance PowerPDF Advanced开始。

我在2014年12月为一个大型项目的准备工作评估了OCR软件-OCR在成千上万的英语页面上分批完成。如果您愿意花几百美元，则有很多选择。如果只需要转换几百页，则试用版可以帮助您。

许多软件包都希望加载所有输入文件，执行OCR并将这些混乱合并为一个输出。恕我直言，这是完全错误的，我不知道谁会想要。我一直在寻找真正的批处理：每个输入文件一个输出文件，无人值守的操作，别无所求，最后给我详细的报告。剧透警报：我没有发现。

按照字母顺序排列的软件包如下。下面显示的价格是清单，但折扣很多。用我的话说一点准确性。您输入的内容将与我输入的内容不同，因此您的里程肯定会有所不同。

ABBYY Finereader 12 Corporate：$ 400。批处理功能称为“任务管理器”，位于“工具”菜单上。它将处理文件夹（包括子文件夹）中的文件；它将很高兴为每个输入文件创建一个单独的输出文件。它似乎无法保留输入文件夹的层次结构；所有输出文件都转到同一个输出文件夹。在我的测试中，准确性很高，但仍然是我在此处列出的软件包中最低的。

Adobe Acrobat XI：300美元批处理功能称为“文本识别/多个文件”，可通过单击“工具”（位于主屏幕右上方的第三个工具栏）找到。处理子文件夹，每个输入一个输出。如果找到受密码保护的文件，则停止并显示提示。默认情况下不保留输入目录树；可以通过将输出写入与输入相同的文件夹来实现。在我的测试中，准确性非常好。

Nuance OmniPage Ultimate（aka v19）：$ 500。批处理功能称为“ DocuDirect”，它是包装随附的独立程序。它将处理文件夹和子文件夹；如果选择恰好正确的功能，它将把输入目录树保留在输出区域中。每个输入一个输出。停止并要求输入受保护文件的密码。似乎可以充分利用多核处理器来并行运行任务。精度非常好。但是批处理程序的稳定性很差；模糊的文档将使它停滞不前，永不恢复，轻松地使批处理脱轨。

Nuance PowerPDF Advanced v1.1（OmniPage Ultimate的后继产品）：150美元。批处理功能称为“批处理转换器”，可从“高级处理”选项卡下的主程序访问。它将处理文件夹和子文件夹，在输出中保留输入结构。每个输入一个输出。将使用多个内核，但不会积极使用；这意味着我无法使多核主机饱和。准确性是卓越的，与OmniPage一样好或更好。错误或模糊的文件并未导致其挂起。批处理处理器将纯文本日志文件写入（冲击式）到输出目录。

ReadIris Corporate 14：600美元。批处理功能由“批处理OCR”项调用，通过单击主屏幕上的“来自文件”按钮可以显示该批处理功能。它将处理文件夹和子文件夹，每个输入一个输出，默认情况下，输出目录结构与输入目录结构匹配。停止并要求用户输入无效文件；显然，通过对图像进行OCR处理，无需进一步投诉即可保护所有受保护的文档。准确性非常好，与Acrobat相当。

在我的台式机（仅双核）上，使用我选择的输入，每个程序包至少需要3秒钟来处理页面；有些花了更多。可能能够在具有更多内核的计算机上降低驱动力。

陷阱比比皆是，一定要为它们做好计划：无效的PDF（某些程序包停止），受密码保护的PDF（某些程序包停止，其他程序仍然转换！）和旋转的页面（横向而不是纵向）。如果要使批处理一直运行到完成，则必须非常仔细地为这些软件包准备输入区域。查看GhostScript程序包的“打印为PDF”功能，以了解从PDF删除保护的方法。

批量运行可能会导致内存用尽和挂起问题，即使不应该这样做（啊，可能是内存泄漏）。如果您要进行任何形式的自动化，那么一个大问题就是在事实真相之后发现-无法处理哪些文档，在处理过程中失败等等。这就像台式机软件的人们从未听说过所谓的“日志文件”。

对于这些大众市场套餐，即使是付费客户，最终也很难获得支持。例如，我向一位受尊敬的客户支持代表投诉，称某件包裹（将保持无名状态）悬挂在一些大件物品上。我等了36个小时才放弃:)。他们甜蜜地建议将批处理大小限制为300个文档。那对我来说是完全不可接受的，但是嘿，很快就关闭了支持票，对吧？就是这么重要，对吧？叹。

高温超导

— 克里斯汀敦
source

您好克里斯洛特，谢谢您的详细回答。;）我很感激。;）我们已经超过4年了，但令人难以置信的是，仍然没有一款软件能完美地完成简单的自动OCR并在完成后释放错误的日志文件！...也许我会尝试联系Nuance。

— Erb 2015年

现在，我使用旧版本的Acrobat Pro和几个免费软件。这是一个漫长的过程。如果需要，我可以详细说明！但是工作要尽力而为！;）

— Erb 2015年

3

Adobe Acrobat将处理PDF文件夹，并且像大多数Adobe产品一样，有30天的试用期。
该功能位于“文档”菜单中：

文档> OCR文本重新识别>使用OCR识别多个文件中的文本

从中可以添加文件夹。

在Acrobat X中，该功能如下：

工具>识别文本>在多个文件中

— 果肉
source

谢谢“小菜一碟”。;）如果时间允许，我将尝试一下。我之前在finereader.abbyy.com的试用版中喜欢的是，它可以识别几种不同的语言。;）

— Erb 2010年

1

实际上，pdfsandwich已在去年进行了更新，对于我来说，在Linux Mint中安装它一点也不困难。它提供的结果不如Adobe Acrobat，但它是迄今为止我在Linux中找到的唯一可行的解决方案。

— 布莱恩·Z
source

1

很有意思！我不知道我正在添加来自en.wikisource.org/wiki/…的链接，并将在将来的某个时间对其进行测试。（实际上还有许多其他解决方案，但我不会在这里开始！）

— Nemo

0

尝试WatchOCR。它是一个开源软件包，可以将扫描的图像转换为可文本搜索的pdf。它是免费和开源的，并且具有用于远程管理的漂亮的Web界面。通过正确的配置，它可用于通过smb共享为整个网络创建批处理pdf / ocr服务。不幸的是，它仅是linux。但是您可以将其安装在旧服务器上，然后整个组织就可以使用它。

如果您想在线进行相同操作而不安装任何东西，请尝试PDFCubed.com

— 朗格纳
source

尽管已存档

— Tobias Kienzler 2014年