我正在寻找一种脱机脚本编写工具,该工具可通过在其上运行OCR来使现有的PDF文件变为可搜索的文件,并用可搜索的版本替换原始的不可搜索的文件,并且可以在无人看管的情况下运行。
例如,www.pdfscannerapp.com-完全满足我的需要,但仅是GUI-不可编写脚本。
我知道Evernote可以使PDF文件可搜索,但是只有在Evernote中时它们才可以搜索。
我不是在寻找完美的OCR,即使是可以接受的OCR也可以,但我更希望使用小的实用程序而不是笨拙的软件包。
(我知道广告中存在类似但不同的问题:寻找要扫描或转换为可搜索和可签名的PDF的软件 -但是,我不需要签名或填充PDF,我的要求是解决方案可编写脚本)
编辑:
1)多个实用程序允许结构化文本提取,但是要提取出来,文本必须存在;我主要指的是包裹位图的PDF,就像由扫描仪生成的普通PDF一样。
2)我不一定非要寻找免费的解决方案,而我会很乐意为能满足我所需要的良好实用程序付费,但我并不是要寻找具有一百万个功能(包括OCR功能)的庞大应用程序,但是其成本不足以证明仅出于OCR功能就购买它们是不合理的。
3)如上所述,我并不是在寻找完美的OCR,而只是寻求一个可以接受的OCR。不幸的是,根据我的经验,tesseract确实低于该阈值。我定义了一个“中等可接受”的OCR,例如可以将水电费OCR记为OCR,以便至少正确识别帐号(客户编号)。
编辑:“可脚本化”或“可自动化”,即能够自动触发并在无人值守的情况下无人值守运行。