如何将扫描图像转换为PDF到可搜索的PDF文件?[关闭]


19

我有扫描书的PDF。

我正在寻找一款可以执行OCR的免费软件,然后提供将其另存为PDF或文档的选项。

有一个吗?


您是说要将pdf中的图像转换为文本吗?
DaveParillo

是的,但我不希望将txt文件作为输出。我想查看完全相同的pdf,但可以选择按Ctrl + F并标记单词等

您将很难转换此PDF,而又不会失去文本格式和样式。我尚未找到能够正确保存扫描图像中的文档的OCR软件。为驴工作做准备(例如校对等):)

Answers:


5

您可以下载Adobe Acrobat Pro的30天试用版,并使用“ OCR文本识别”功能(“文档> OCR文本识别>使用OCR识别文本...”)。在设置对话框中,选择“可搜索图像”作为输出样式。这将保留页面图像,但嵌入OCR文本,因此可以搜索文档并允许选择,复制和粘贴文本。

运行OCR之后,您需要确认或更正有关OCR无法确定是否使用“查找OCR嫌疑犯”功能的字词。


尽管Adobe不是免费的,但它是迄今为止功能最强大的OCR解决方案
James Healy 2012年

4

如果您拥有Google帐户,则Google文档现在包含上载PDF文件并对其执行OCR的功能。

我自己尝试过,它在公认的格式良好的PDF上相当出色。

格式几乎被破坏了,但文本似乎可以保留下来。


4

在Internet上找到了以下产品,但我没有使用它们。

在线OCR

OCR终端

OCR终端是一种在线OCR服务,可对扫描的图像和pdf文件执行光学字符识别(OCR),并将它们呈现为可编辑和可文本搜索的文档。

免费OCR

Free-OCR.com是一个免费的在线OCR(光学字符识别)工具。您可以使用此功能在提供的任何图像上执行OCR。
此服务是免费的,无需注册。我们也不需要您的电子邮件地址。
只需上传您的图像文件即可。Free-OCR使用JPG,GIF,TIFF BMP或PDF(仅第一页)。唯一的限制是图像不得大于2MB,宽度不得大于或等于5000像素,并且每小时上传10张图像。

Maestro Recognition Server是商用的,但具有在线试用版演示。

免费软件

FreeOCR-仅用于图像。

FreeOCR是一个扫描和OCR程序,其中包括Tesseract免费ocr引擎,也称为Tesseract GUI。它包括Windows安装程序,使用非常简单,并支持多页tiff文件,传真文档以及大多数图像类型,包括Tesseract引擎本身无法读取的压缩Tiff文件,现在具有Twain扫描功能。

pdfsandwich - pdf- > pdf转换器。

pdfsandwich是用于OCR扫描的书籍或日记的命令行工具。它甚至可以识别多列文本的页面布局。

实质上,pdfsandwich是一个包装器脚本,它调用以下二进制文件:convert,cuneiform,gs和hocr2pdf。它可以在Unix系统上运行,并且已经在Linux和MacOS X上进行了测试。它支持多处理器系统上的并行处理。


我刚用过pdfsandwich。它有效且免费!:)这当然会对我的论文有所帮助,谢谢!
艾迪(Eddy)

看起来pdfsandwich已移动?tobias-elze.de/pdfsandwich
pioto

@pioto:不是我在上面添加了pdfsandwich,但是我按照您的建议修复了链接。
harrymc 2015年

2

Cuneiform + hocr2pdf + Ghostscript:一个DIY开源解决方案。

我发布了一个答案,概述了一个解决方案,该解决方案涉及一个版本的开源Cuneiform OCR系统和hocr2pdf以及一个用于将PDF页面放在一起的Ghostscript

那是专门针对Linux的,但是您也可以获得Windows的Cuneiform和Ghostscript。不过,我不确定hocr2pdf或等效文件。


1

这是一种非常奇怪的方法,其中涉及让Google在网站上为您建立索引并对其进行OCR,然后再进行检索。


是的,我也看到了……奇怪的确实:)我可能最终会这么做……

0

安装Imagemagick。打开一个cmd窗口或终端:

convert myfile.pdf myfile-%02d.jpg

输出将是pdf,myfile-00.jpg,myfile-01.jpg等每一页的1个jpg文件。

通过ocr程序传递每个图像。我对此没有太多经验,但是似乎有很多选择。

将每页文字转换回pdf。您可以使用imagemagick再次执行此操作,但是还有其他方法:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf

0

尽管我可能无法正确理解问题,但您的请求似乎是解决该问题的复杂方法。好歹:

为什么不找一个允许您直接将数据输入到pdf页面的PDF编写器?


0

尝试PDFCubed.com无需 安装,所有操作均在线完成。您可以通过网络,电子邮件或保管箱发送要处理的文档。扫描的PDF和TIF被转换为可搜索的文本pdf,然后可以通过网络,电子邮件或保管箱检索。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.