如何获得索引服务和MODI以通过OCR产生全文?


75

我已经配置了索引服务来索引我的文件,其中还包括另存为高分辨率TIFF文件的扫描图像。我还安装了MS Office 2003+,并正确配置了MS Office文档映像(MODI),因此我可以对图像执行OCR,甚至可以将OCR文本嵌入TIFF。

索引服务能够索引和查找那些TIFF通过手动OCR'd并重新保存文本数据(使用MS文档成像工具)-S。

事实证明,与Windows XP SP2一起部署的数据执行保护(DEP)认为MODI是恶意的,并且拒绝让它发挥作用。我已经能够通过完全关闭DEP使其工作,但是我发现这种解决方案不太理想。

是否有更好的解决方案可以在不禁用DEP的情况下完成此工作?


我尝试了同样的事情,并遇到了一些相同的限制。我也发现MODI对于索引大量图像太慢了。
Leon Bambrick

3
有一个修复程序似乎可以解决此问题。
Greg Hurlman

2
我不知道您的环境,但是为什么不依赖于可能在许多关节处断裂的混合魔术,为什么不使用tesseract ocr + lucene来开发小型应用程序呢?
TuncayGöncüoğlu17年

1
@TuncayGöncüoğlu:是的,我很早就从Modi and Indexing Service搬走了。我保留这个非常老的问题只是出于历史目的。
Ishmaeel

Answers:


2

对特定的应用禁用DEP。

如何为特定应用禁用DEP

  1. 单击Windows计算机上的“开始”按钮,然后选择“计算机”>“系统属性”>“高级系统设置”。
  2. 在“系统属性”对话框中,选择“设置”。
  3. 选择“数据执行保护”选项卡。
  4. 对于我选择的所有程序和服务,选择“打开DEP”。

单击添加,然后使用浏览功能浏览到要排除的程序可执行文件,例如excel.exe或word.exe。

根据您的Windows版本,您可能需要通过在Windows资源管理器中右键单击“此PC或计算机”来访问“系统属性”对话框。

  1. 在Windows资源管理器中,右键单击并选择“属性”>“高级系统设置”>“系统属性”。
  2. 选择高级>性能>数据执行保护。
  3. 对于我选择的所有程序和服务,选择“打开DEP”。
  4. 单击添加,然后使用浏览功能浏览到要排除的程序可执行文件。

排除:

C:\Program Files\Common Files\Microsoft Shared\MODI\11.0\MSPOCRDC.EXE  
C:\Program Files\Common Files\Microsoft Shared\MODI\11.0\MSPSCAN.EXE  
C:\Program Files\Common Files\Microsoft Shared\MODI\11.0\MSPVIEW.EXE

其他信息不是答案的一部分:

要在最新版本的Windows上获取并安装MODI,请参阅:
Microsoft Office Document Imaging – Office 2010到Office 2016

参考文献:

从DEP(数据执行保护)中排除程序

Microsoft Office文档扫描错误

MODI是(免费)“ Microsoft SharePoint Designer 2007 ”的一部分。


感谢您抽出宝贵的时间来编写这些说明。我记得当时无法确定到底要从DEP中排除什么。我不愿意接受答案,因为我不再有办法验证该解决方案,但是我对此表示赞同。
Ishmaeel

谢谢。也许如果得到一打UpVotes,那是正确的。链接说它适用于多个人。我的目的是清理未回答的问题队列。
Rob
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.