如何从图像中提取文本?


25

如何从图像中提取文本?

我说的不是扫描文件,而是花园里的各种图像,例如当您在课堂上拍摄黑板的高清照片时,它的手写效果很好。或者当您从食谱书中拍摄一页并希望以文本格式获取食谱时。

有免费的开放软件吗?

我尝试了tesseract,结果很糟糕。


我需要同时支持孟加拉语和英语的OCR 。
alhelal'5

Answers:


26

从图像中提取文本的行为被称为OCR,Ubuntu有一个专用于OCR的Wiki页面。从该页面:

可用的OCR工具

Ubuntu Universe存储库包含以下OCR工具:

  1. gocr-命令行OCR
  2. Fuzzyocr -spamassassin插件,用于检查图像附件
  3. libhocr0-希伯来语OCR
  4. ocrad-光学字符识别程序
  5. ocrfeeder-文档布局分析和光学字符识别系统
  6. ocropus-文档分析和OCR系统
  7. Tesseract-ocr

Ubuntu多宇宙存储库还包含:

  1. 楔形文字 -多语言OCR系统

有些软件包已经过时,但是可以在Alex_P PPA(PPA添加代码:ppa:alex-p / notesalexp)中找到非官方的新鲜软件包。如果您从未使用过PPA,请检查如何从PPA添加软件

编辑:如评论所示,克拉拉OCR也存在,但它在Hardy受到了欢迎,他们的网站上有2009年的最新更新。


您是否有经验将这些用于我描述的示例?我对常规的OCR工具有些怀疑。名单上的第7位是我尝试过的,非常糟糕。
Strapakowsky

如果我还记得的话,我也尝试了gocr,但结果却相当糟糕。如果您成功尝试了其中任何一种,则使用了什么语法?谢谢。
Strapakowsky

没有任何!我从来不屑与OCR:d Freshmeat的搜索显示克拉拉OCR和正方体-OCR)(freshmeat.net/search/...
Rinzwind

如果我说成功使用OCR需要了解过程并进行仔细设置以适合要扫描的特定图像,我会错吗?因此,如果我是对的,那么不好的结果可能是由于用户而不是软件。
NN

OCR如果您知道图像是如何创建的,并且您对使用的软件非常熟悉(后者是我从没开始使用它的原因),那么它工作得最好。
Rinzwind

18

tesseract-ocr与所有其他相比,这将是伟大的。对于安装,请运行command sudo apt-get install tesseract-ocr

用法是tesseract filename.jpg output.txt

上面的命令将生成output.txt

您可以考虑选择适当的语言。在这种情况下,您将需要安装tesseract-ocr-LANG软件包,其中LANG是三个字母的ISO 639-2语言代码。现在,您可以在18.04版本上使用123种语言。然后使用例如:

tesseract mySpanishText.jpg output -l spa

嘿,所以确实可以,但是不准确,或者我想说是80-85%的准确度。类似于此图像的示例:pbs.twimg.com/media/DJs6_pcXkAA2VrN.jpg,它弄乱了$符号以及大多数括号。方形,圆形,卷曲,所有括号都成问题,永远无法正确提取它们。您知道有什么解决方法吗?
米兰·切达
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.