如何将扫描图像转换为PDF到可搜索的PDF文件？[关闭]

19

我有扫描书的PDF。

我正在寻找一款可以执行OCR的免费软件，然后提供将其另存为PDF或文档的选项。

有一个吗？

software-rec pdf ocr

— slhck
source

您是说要将pdf中的图像转换为文本吗？

— DaveParillo

是的，但我不希望将txt文件作为输出。我想查看完全相同的pdf，但可以选择按Ctrl + F并标记单词等

您将很难转换此PDF，而又不会失去文本格式和样式。我尚未找到能够正确保存扫描图像中的文档的OCR软件。为驴工作做准备（例如校对等）：）

5

您可以下载Adobe Acrobat Pro的30天试用版，并使用“ OCR文本识别”功能（“文档> OCR文本识别>使用OCR识别文本...”）。在设置对话框中，选择“可搜索图像”作为输出样式。这将保留页面图像，但嵌入OCR文本，因此可以搜索文档并允许选择，复制和粘贴文本。

运行OCR之后，您需要确认或更正有关OCR无法确定是否使用“查找OCR嫌疑犯”功能的字词。

— 果肉
source

尽管Adobe不是免费的，但它是迄今为止功能最强大的OCR解决方案

— James Healy 2012年

4

如果您拥有Google帐户，则Google文档现在包含上载PDF文件并对其执行OCR的功能。

我自己尝试过，它在公认的格式良好的PDF上相当出色。

格式几乎被破坏了，但文本似乎可以保留下来。

— 理查德·卢卡斯（Richard Lucas）
source

4

在Internet上找到了以下产品，但我没有使用它们。

在线OCR

OCR终端

OCR终端是一种在线OCR服务，可对扫描的图像和pdf文件执行光学字符识别（OCR），并将它们呈现为可编辑和可文本搜索的文档。

免费OCR

Free-OCR.com是一个免费的在线OCR（光学字符识别）工具。您可以使用此功能在提供的任何图像上执行OCR。
此服务是免费的，无需注册。我们也不需要您的电子邮件地址。
只需上传您的图像文件即可。Free-OCR使用JPG，GIF，TIFF BMP或PDF（仅第一页）。唯一的限制是图像不得大于2MB，宽度不得大于或等于5000像素，并且每小时上传10张图像。

Maestro Recognition Server是商用的，但具有在线试用版演示。

免费软件

FreeOCR-仅用于图像。

FreeOCR是一个扫描和OCR程序，其中包括Tesseract免费ocr引擎，也称为Tesseract GUI。它包括Windows安装程序，使用非常简单，并支持多页tiff文件，传真文档以及大多数图像类型，包括Tesseract引擎本身无法读取的压缩Tiff文件，现在具有Twain扫描功能。

pdfsandwich - pdf- > pdf转换器。

pdfsandwich是用于OCR扫描的书籍或日记的命令行工具。它甚至可以识别多列文本的页面布局。

实质上，pdfsandwich是一个包装器脚本，它调用以下二进制文件：convert，cuneiform，gs和hocr2pdf。它可以在Unix系统上运行，并且已经在Linux和MacOS X上进行了测试。它支持多处理器系统上的并行处理。

— 哈里奇
source

我刚用过pdfsandwich。它有效且免费！:)这当然会对我的论文有所帮助，谢谢！

— 艾迪（Eddy）

看起来pdfsandwich已移动？tobias-elze.de/pdfsandwich

— pioto

@pioto：不是我在上面添加了pdfsandwich，但是我按照您的建议修复了链接。

— harrymc 2015年

2

Cuneiform + hocr2pdf + Ghostscript：一个DIY开源解决方案。

我发布了一个答案，概述了一个解决方案，该解决方案涉及一个版本的开源Cuneiform OCR系统和hocr2pdf以及一个用于将PDF页面放在一起的Ghostscript。

那是专门针对Linux的，但是您也可以获得Windows的Cuneiform和Ghostscript。不过，我不确定hocr2pdf或等效文件。

— Jukka Matilainen
source

1

这是一种非常奇怪的方法，其中涉及让Google在网站上为您建立索引并对其进行OCR，然后再进行检索。

— 乐队
source

是的，我也看到了……奇怪的确实：）我可能最终会这么做……

0

安装Imagemagick。打开一个cmd窗口或终端：

convert myfile.pdf myfile-%02d.jpg

输出将是pdf，myfile-00.jpg，myfile-01.jpg等每一页的1个jpg文件。

通过ocr程序传递每个图像。我对此没有太多经验，但是似乎有很多选择。

将每页文字转换回pdf。您可以使用imagemagick再次执行此操作，但是还有其他方法：

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf

— 戴夫·帕里洛
source

0

尽管我可能无法正确理解问题，但您的请求似乎是解决该问题的复杂方法。好歹：

为什么不找一个允许您直接将数据输入到pdf页面的PDF编写器？

— 哈维尔爵士
source

0

尝试PDFCubed.com无需安装，所有操作均在线完成。您可以通过网络，电子邮件或保管箱发送要处理的文档。扫描的PDF和TIF被转换为可搜索的文本pdf，然后可以通过网络，电子邮件或保管箱检索。

— 朗格纳
source