Answers:
您可以下载Adobe Acrobat Pro的30天试用版,并使用“ OCR文本识别”功能(“文档> OCR文本识别>使用OCR识别文本...”)。在设置对话框中,选择“可搜索图像”作为输出样式。这将保留页面图像,但嵌入OCR文本,因此可以搜索文档并允许选择,复制和粘贴文本。
运行OCR之后,您需要确认或更正有关OCR无法确定是否使用“查找OCR嫌疑犯”功能的字词。
如果您拥有Google帐户,则Google文档现在包含上载PDF文件并对其执行OCR的功能。
我自己尝试过,它在公认的格式良好的PDF上相当出色。
格式几乎被破坏了,但文本似乎可以保留下来。
在Internet上找到了以下产品,但我没有使用它们。
在线OCR
OCR终端是一种在线OCR服务,可对扫描的图像和pdf文件执行光学字符识别(OCR),并将它们呈现为可编辑和可文本搜索的文档。
Free-OCR.com是一个免费的在线OCR(光学字符识别)工具。您可以使用此功能在提供的任何图像上执行OCR。
此服务是免费的,无需注册。我们也不需要您的电子邮件地址。
只需上传您的图像文件即可。Free-OCR使用JPG,GIF,TIFF BMP或PDF(仅第一页)。唯一的限制是图像不得大于2MB,宽度不得大于或等于5000像素,并且每小时上传10张图像。
Maestro Recognition Server是商用的,但具有在线试用版演示。
免费软件
FreeOCR-仅用于图像。
FreeOCR是一个扫描和OCR程序,其中包括Tesseract免费ocr引擎,也称为Tesseract GUI。它包括Windows安装程序,使用非常简单,并支持多页tiff文件,传真文档以及大多数图像类型,包括Tesseract引擎本身无法读取的压缩Tiff文件,现在具有Twain扫描功能。
pdfsandwich - pdf- > pdf转换器。
pdfsandwich是用于OCR扫描的书籍或日记的命令行工具。它甚至可以识别多列文本的页面布局。
实质上,pdfsandwich是一个包装器脚本,它调用以下二进制文件:convert,cuneiform,gs和hocr2pdf。它可以在Unix系统上运行,并且已经在Linux和MacOS X上进行了测试。它支持多处理器系统上的并行处理。
Cuneiform + hocr2pdf + Ghostscript:一个DIY开源解决方案。
我发布了一个答案,概述了一个解决方案,该解决方案涉及一个版本的开源Cuneiform OCR系统和hocr2pdf以及一个用于将PDF页面放在一起的Ghostscript。
那是专门针对Linux的,但是您也可以获得Windows的Cuneiform和Ghostscript。不过,我不确定hocr2pdf或等效文件。
安装Imagemagick。打开一个cmd窗口或终端:
convert myfile.pdf myfile-%02d.jpg
输出将是pdf,myfile-00.jpg,myfile-01.jpg等每一页的1个jpg文件。
通过ocr程序传递每个图像。我对此没有太多经验,但是似乎有很多选择。
将每页文字转换回pdf。您可以使用imagemagick再次执行此操作,但是还有其他方法:
convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
尝试PDFCubed.com无需 安装,所有操作均在线完成。您可以通过网络,电子邮件或保管箱发送要处理的文档。扫描的PDF和TIF被转换为可搜索的文本pdf,然后可以通过网络,电子邮件或保管箱检索。