Questions tagged «ocr»

光学字符识别(OCR)是将文本图像转换为可由文字处理器等处理的文本的过程。


4
如何创建带有扫描页面但可选文本的PDF?
今天,我收到了供应商提供的PDF,其中包含几张带有签名等的印刷和扫描页面。我在Acrobat Reader DC中打开了它。但是令我惊讶的是,可以从明显扫描的图像中选择文本并将其复制为文本。看截图: 由于复制的文本包含错误,因此在此之后显然存在一些OCR。但这怎么可能呢?我以前从未见过,如何创建呢?

6
批量OCR许多PDF文件
一年前已经在这里讨论过: 批量处理许多PDF文件的OCR(还不是OCRed)? 有没有办法批处理尚未使用OCRed的OCR PDF?我认为这是当前处理两个问题的状态: 批量OCR PDF 视窗 Acrobat –这是将对OCR进行批处理的最直接的ocr引擎。唯一的问题似乎是1)它不会跳过已经是OCRed的文件2)尝试向其扔一些PDF(有些旧)并看着它崩溃。这有点越野车。它会警告您遇到的每个错误(尽管您可以告诉软件不通知。但是,同样,它会在某些类型的PDF上严重死亡,因此您的行程可能会有所不同。 ABBYY FineReader(批处理/扫描快照),Omnipage –这些必须是人类已知的最差的编程软件。如果您可以找到如何完全自动化(无提示)批处理具有相同名称的PDF的 OCR,请在此处发布。看来,我能找到的唯一解决方案在某个地方失败了-重命名,不完全自动化等。充其量,有一种方法可以做到这一点,但是文档和编程是如此恐怖,以至于您永远找不到。 ABBYY FineReader Engine,ABBYY识别服务器 -这些确实是更多的企业解决方案,您可能最好让acrobat在文件夹上运行并尝试清除会给您带来错误/崩溃程序的pdf文件,而不是像尝试那样麻烦安装评估软件(假设您是简单的最终用户)。对于小型用户而言,似乎没有成本竞争力。 ** Autobahn DX工作站**该产品的价格是如此昂贵,您可能可以购买6份杂技演员。并不是真正的最终用户解决方案。如果您是企业设置,这对您来说值得。 的Linux WatchOCR –不再开发,基本上不可能在现代Ubuntu发行版上运行 pdfsandwich –不再开发,基本上不可能在现代Ubuntu发行版上运行 ** ABBY LINUX OCR **-这应该可以编写脚本,并且似乎有一些不错的效果: http://www.splitbrain.org/blog/2010-06/15-linux_ocr_software_comparison 但是,就像它们按页面收费的许多其他这些ABBYY产品一样,您最好使Acrobat Batch OCR正常工作。 ** Ocrad,GOCR,OCRopus,tesseract,** –这些可能有用,但存在一些问题: 对于其中的一些,OCR结果不如acrobat好(请参见上面的链接)。 这些程序均不接受PDF文件并输出PDF文件。您必须创建一个脚本并首先分解PDF,然后在每个脚本上运行程序,然后将文件重新组合为pdf。 完成后,您可能会像我一样发现(tesseract)创建了一个移过的OCR层。因此,如果您搜索单词“ the”,则会在该单词旁边看到一个突出的部分。 批处理DjVu →转换为PDF –尚未研究,但似乎是一个可怕的解决方案。 线上 PDFcubed.com –来了,不是真正的批处理解决方案。 ABBYY Cloud OCR-不确定这是否真的是一个批处理解决方案,无论哪种方式,您都必须按页面付费,这可能会变得很昂贵。 …


3
如何从图像中识别字体?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新的问题,所以这是对话题的超级用户。 4年前关闭。 很多时候,我遇到的位图只有文字段落,所以我一直在寻找一种识别所使用的字体,段落对齐方式,行距和颜色,粗体,斜体的方法。 OCR软件包可否允许我这样做? 如果没有,我还有什么其他选择?

7
如何从PDF中删除OCR?
我已经搜索Google一段时间了,但是找不到我的问题的答案。 我最近使用Adobe Acrobat扫描的文档中有不需要的OCR层。OCRed尚未正确运行,我想编辑一些信息,但是OCR正在删除需要的信息。我将文件转换为TIF,但是注意到(非常)重大的质量损失。我听说打印到另一个PDF会保留文本或降低图像质量。 感谢您为尽快解决此问题提供的帮助。 谢谢。
14 pdf  adobe-acrobat  ocr  tif 


8
将大书转换为数字格式的实用OCR解决方案?
上周末我由祖父母住过。我的祖母拿出了这本巨大的家族史书(约1400页),可追溯到1630年左右。我是个巨型书呆子,我认为将所有信息存储在数据库中并可以从Web上获取信息会很麻烦。我可以处理所有的Web编程和正则表达式,但不可以,但是我不知道的是将文本从书本转移到计算机的最佳方法。 从我所做的少量研究中,我知道某种OCR是必要的,似乎我的选择是: 用相机拍摄每页的图片,然后使用OCR软件处理图片 使用扫描仪扫描每页,然后使用OCR软件进行处理 使用某种类型的手持设备,像这样。 是否有人对解决此问题的最佳方法有任何想法?我不想销毁这本书,因为据我所知,它不能被替换。这可能是我唯一一次要扫描一本大书,所以我不希望在任何设备上花费超过250美元。我不介意在此进行任何人工操作(我意识到这很可能需要几个月的时间),但是我想找到最有效的方法。 关于这本书的注意事项:它只有大约20年的历史,所以它的状态还不错。它是单色的,页面尚未开始泛黄。由于它太大,所以我担心当文本接近装订时可能会有阴影。
12 ocr 

5
通过Ghostscript运行后,PDF在所有单词上都有一个额外的空白
该PDF由Abbyy Finereader 10制作: http://ebooks.zeitr.org/from_abbyy.pdf 您可以复制并粘贴第一句话,并获得以下(非常好的)文本结果: 德国外滩体育馆20世纪1955年11月号,德国体育馆和德国私人体操馆。 用Ghostscript 9.02(64位Windows)进行一些处理后,我得到了这个文件: http://ebooks.zeitr.org/after_ghostscript.pdf 现在,第一个句子看起来很奇怪-每个单词的最后一个字符之前都有一个多余的空格。 Der»Bun d Deutsche r GymnastikSchulleiter«乌姆20。195年11月5日在莱斯特林纳州的私人参议院举行的选举中,阿尔萨斯里克人民阵线的胜利。 这具有主要的负面影响,即您无法在Acrobat Reader中搜索整个单词。我可以通过为Ghostscript设置以下最小参数来重现效果: -sDEVICE=pdfwrite ^ -dBATCH ^ -dNOPAUSE ^ -sstdout="myStdOut" ^ -sOutputFile="myDestFile.pdf" ^ mySourceFile.pdf 有任何想法吗?
10 pdf  ocr  ghostscript 

4
批量处理许多PDF文件的OCR(还不是OCRed)?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新的问题,所以这是对话题的超级用户。 5年前关闭。 我使用的是Google桌面搜索(在Vista上),并且我的所有PDF文件都无法在存档文件夹中识别。这是正常的,因为未对“ 包含扫描图像的PDF文件 ”建立索引(http://desktop.google.com/support/bin/answer.py?hl=zh_CN&answer=90651) 因此,我想对我尚未使用OCRed的许多PDF文件进行OCR。 我的目标:我给程序一个文件夹,它在子文件夹中单独搜索需要转换为PDF-OCRed文件的PDF文件。 注意:过去,如果PDF文件受密码保护,我将使用另一批(付费)工具删除密码:verypdf.com“ pwdremover” http://www.verypdf.com/pwdremover/ 有什么想法(不太贵)? 我已经尝试过:当时xp上的Finereader 6 pro,但是没有包含批处理程序... Paperfile paperfile.net使用Tesseract http://code.google.com/p/tesseract-ocr/。但是OCR只是PDF到文本,而不是PDF到PDF!还有另一个项目http://code.google.com/p/ocropus/ 提前致谢 ;)

3
带有GUI的免费免费OCR,可以纠正错误?(对于Windows)
我使用过SimpleOCR,它具有用于纠正错误的漂亮GUI。不幸的是,它会犯很多错误!(并遭受其他错误和限制) 另一方面,Tesseract更准确,但根本没有GUI。 我的问题是,是否有一个免费的Windows OCR程序,它具有不错的GUI 和较低的错误率?我希望它突出显示可疑单词(通过OCR不确定性,而不仅仅是拼写检查),并在编辑OCRed单词时显示原始(位图)单词,类似于SimpleOCR。 开源是最好的选择,其次是免费软件,然后是试用/演示/ crippleware,远远落后。
9 windows  gui  ocr 

3
Acrobat 11可以使用多个CPU内核进行OCR吗?
OCR处理需要时间。使用多个CPU核心可以加快处理速度。 Acrobat 10是 不是多线程应用程序 。 Acrobat 11怎么样?默认情况下11是否使用多个CPU核心(如果可用)进行OCR?如果没有,是否有任何解决方法,例如脚本,以帮助使Acrobat 11使用多个CPU核心进行OCR?通过Acrobat的内置脚本语言或使用外部脚本启动和指导Acrobat的多个单线程实例,与处理作业的各个部分并行。 注意:这个问题不是太局部化(不限于特定的时刻)因为(1)Adobe不经常发布新的主要Acrobat版本(Acrobat 10在两年前发布)和(2)Adobe Acrobat是一个广泛的二手应用。


3
OCR Tesseract,空白页错误?
我使用的源代码对其进行了编译leptonica。这是具有透明背景的png图像,我对其进行了编辑,添加了蓝色,但仍然出现此错误: Tesseract Open Source OCR Engine v3.02.02 with Leptonica Empty page!! Empty page!! 这是图像输入:

2
在线OCR网站一次处理整个pdf文件?[关闭]
我正在寻找一个在线OCR网站,用于同时处理多页pdf文件。优选免费。 我知道http://www.newocr.com/。如果我是正确的,它一次只能OCR一页,通过手动点击“预览”,然后点击每页的“OCR”。每个页面被OCR后,我也必须手动复制文本结果。 如果我的pdf文件有30页,那么对每个页面重复上述过程将非常繁琐。我想知道是否有其他在线网站OCR整个pdf文件,而不要求我进行手动操作? 谢谢!
4 ocr 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.