Answers:
从图像中提取文本的行为被称为OCR
,Ubuntu有一个专用于OCR的Wiki页面。从该页面:
可用的OCR工具
Ubuntu Universe存储库包含以下OCR工具:
Ubuntu多宇宙存储库还包含:
有些软件包已经过时,但是可以在Alex_P PPA(PPA添加代码:ppa:alex-p / notesalexp)中找到非官方的新鲜软件包。如果您从未使用过PPA,请检查如何从PPA添加软件。
编辑:如评论所示,克拉拉OCR也存在,但它在Hardy受到了欢迎,他们的网站上有2009年的最新更新。
OCR
如果您知道图像是如何创建的,并且您对使用的软件非常熟悉(后者是我从没开始使用它的原因),那么它工作得最好。
tesseract-ocr
与所有其他相比,这将是伟大的。对于安装,请运行command sudo apt-get install tesseract-ocr
。
用法是tesseract filename.jpg output.txt
。
上面的命令将生成output.txt
。
您可以考虑选择适当的语言。在这种情况下,您将需要安装tesseract-ocr-LANG
软件包,其中LANG
是三个字母的ISO 639-2语言代码。现在,您可以在18.04版本上使用123种语言。然后使用例如:
tesseract mySpanishText.jpg output -l spa