Questions tagged «ocr»

13
通过命令行/脚本使现有的PDF可搜索(OCR)
我正在寻找一种脱机脚本编写工具,该工具可通过在其上运行OCR来使现有的PDF文件变为可搜索的文件,并用可搜索的版本替换原始的不可搜索的文件,并且可以在无人看管的情况下运行。 例如,www.pdfscannerapp.com-完全满足我的需要,但仅是GUI-不可编写脚本。 我知道Evernote可以使PDF文件可搜索,但是只有在Evernote中时它们才可以搜索。 我不是在寻找完美的OCR,即使是可以接受的OCR也可以,但我更希望使用小的实用程序而不是笨拙的软件包。 (我知道广告中存在类似但不同的问题:寻找要扫描或转换为可搜索和可签名的PDF的软件 -但是,我不需要签名或填充PDF,我的要求是解决方案可编写脚本) 编辑: 1)多个实用程序允许结构化文本提取,但是要提取出来,文本必须存在;我主要指的是包裹位图的PDF,就像由扫描仪生成的普通PDF一样。 2)我不一定非要寻找免费的解决方案,而我会很乐意为能满足我所需要的良好实用程序付费,但我并不是要寻找具有一百万个功能(包括OCR功能)的庞大应用程序,但是其成本不足以证明仅出于OCR功能就购买它们是不合理的。 3)如上所述,我并不是在寻找完美的OCR,而只是寻求一个可以接受的OCR。不幸的是,根据我的经验,tesseract确实低于该阈值。我定义了一个“中等可接受”的OCR,例如可以将水电费OCR记为OCR,以便至少正确识别帐号(客户编号)。 编辑:“可脚本化”或“可自动化”,即能够自动触发并在无人值守的情况下无人值守运行。
21 pdf  ocr 

2
使用免费的开放源代码工具在OS X中的PDF上进行OCR
阅读这些博客文章后: Linux,OCR和PDF-已解决问题 使用开源工具ghostscript,horc2pdf和tesseract-ocr创建可搜索的PDF 将Tesseract OCR与PDF扫描结合使用 并要通过下面的代码段(从这个 GIST)的Linux,我想我找到OCR的方法多页PDF和得到的输出,可以在依赖OS X.大多数也工作在自制可用PDF (brew install tesseract和brew install imagemagick),但其中一个除外hocr2pdf。 我找不到OS X的端口。有没有可用的端口?如果不是,如何使用免费的开放源代码工具OCR编写多页PDF,并在OS X中以多页PDF重新获得结果? #!/bin/bash # This is a script to transform a PDF containing a scanned book into a searchable PDF. # Based on previous script and many good tips by Konrad Voelkel: # http://blog.konradvoelkel.de/2010/01/linux-ocr-and-pdf-problem-solved/ # http://blog.konradvoelkel.de/2013/03/scan-to-pdfa/ …
16 macos  pdf  open-source  ocr 

8
OCR手写笔记软件
我正在寻找一种方法来识别扫描笔记的笔迹(PDF格式)。 它不一定是完美的,也不必免费,但是在付款之前,我想尝试一下(即使只有一页)。 它不一定必须是本机Mac OS X应用程序。我可以使用在线应用程序或Unix应用程序来安装或编译。换句话说,任何可行的方法都可以。 我也不一定要寻找完美的结果。即使将我的便笺转换为仅能识别一些文本的可搜索PDF,总比没有好。

1
在PDF中显示隐藏的字符
我在扫描的PDF文件上做了一些光学字符识别。原始文档包含öäü等特殊字符。问题是,有时字符识别错误(例如ö= u),然后预览会让我突出显示字符图像ö但是复制字符时它会输出u。 可以预览显示没有图像的实际识别字符是什么?
preview  ocr 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.