从Evernote提取OCR文本


13

Evernote对保存到它的图像进行OCR。是否有办法在Evernote中获得与图像等效的全文,或者OCR仅用于搜索?

Answers:


15

Evernote API具有获取文本和矩形的功能,这些文本位于图像中。请参阅http://evernote.com/about/developer/api/evernote-api.htm,查看“ Evernote识别索引XML格式”及其功能以进行检索。问题是他们不执行传统的OCR ...他们的OCR算法可能会为图像上的单个“单词”产生不同的单词。他们仅将其用于搜索,因此这对他们来说很好,但不适用于将其用作识别引擎。(尽管它们给您每个单词替代的权重,所以也许您可以使用它)


11

同样,Evernote显然没有确定特定的图像恰好等于一个词-例如,Evernote并未确定特定的图像是“线索”而不是“应有”。而是,它将同时跟踪两个图像,并且对其中一个进行搜索将返回相同的图像。因此,没有办法获得全文等效的内容,因为Evernote不能决定全文的实际含义,而只能决定是什么。


5

evernote向ocr-stuff的创建者支付了一笔可观的款项,或者为将某些东西放在一起而支付了一笔可观的款项。因此,我真的怀疑它们是否会让您获得提取的文本(图像上的+位置)。

(可以是一种商业模式,可以扫描其他人的图像并提供良好的OCR :))

因此,答案是:不会。


3
这不是真的 有API可以准确获取此信息。看我的答案。
PeterŠtibraný2011年

2

我不确定您需要多少复杂性,但是由于我也使用Adobe Acrobat,因此我只需右键单击Evernote附件即可使用Acrobat打开。

然后从Acrobat中选择“文档| OCR文本识别”,然后将文档另存为纯文本。

这对我来说效果很好,因为我只需要偶尔进行一次OCR转换。


1

如果可以从Evernote中获取所有图像,则可以使用Google Docs进行OCR。

您可以将图像文件夹上传到Google文档,然后将其转换为文档,其中将同时包含图像和OCRed文本。

然后,您可以将所有这些文档批量下载为纯文本格式,这样可以去除图像。

如果您用哈希(例如md5)命名所有Evernote图像,那么将从Google Docs下载的纯文本文件与原始图像链接起来应该很容易。


0

我在Windows上并使用Adobe Acrobat Pro和Word,因此请执行以下操作:

  1. 如果文件未另存为JPG,请在Evernote中单击图像左上角的眼球图标,以在Photo Viewer中将其打开,然后单击“文件”>“进行复制”以另存为JPG
  2. 浏览到资源管理器中的图像文件
  3. 右键单击它,然后选择“转换为Adobe PDF”(文件将在Acrobat中打开)
  4. 单击文件>另存为,然后从“另存为类型”下拉列表中选择RTF格式以另存为RTF文件(处理文件需要一分钟)
  5. 在资源管理器中浏览到RTF文件,然后双击以在Word中打开
  6. 根据需要进行编辑

这似乎是有关如何从给定图像文件(而不是Evernote中的图像)提取文本的建议。您能否澄清这是如何回答原始问题的,而以前的答案和已接受的答案却没有?
music2myear17年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.