是否有适用于Linux的体面语音识别软件?


49

问题的简短版本:我正在寻找一种在Linux上运行并且具有不错的准确性和可用性的语音识别软件。任何许可证和价格都可以。它不应该局限于语音命令,因为我希望能够命令文本。


更多细节:

我不满意地尝试了以下方法:

上述所有本机Linux解决方案均具有较差的准确性和可用性(或某些解决方案不允许自由文本听写,而仅允许语音命令)。精度差,是指精度大大低于我在下面针对其他平台提到的语音识别软件的精度。至于Wine + Dragon NaturallySpeaking,以我的经验,它一直崩溃,而且我似乎并不是唯一遇到此类问题的人。

在Microsoft Windows上,我使用Dragon NaturallySpeaking,在Apple Mac OS XI上,使用Apple Dictation和DragonDictate,在Android上,我使用Google语音识别,在iOS上,我使用内置的Apple语音识别。

百度研究昨天发布了其语音识别库的代码,该代码使用由Torch实施的Connectionist时间分类Gigaom的基准测试令人鼓舞,如下面的屏幕快照所示,但我不知道周围有没有很好的包装可以使其在没有大量编码(和大量训练数据集)的情况下可用:

在此处输入图片说明

存在一些非常Alpha开源项目:

我也知道这种尝试跟踪艺术发展状况和语音识别最新结果(参考书目)的尝试。以及现有语音识别API的基准


我知道 Aenea,它可以在一台计算机上通过Dragonfly进行语音识别以将事件发送到另一台计算机,但是它会增加一些延迟:

在此处输入图片说明

我也知道这两个探讨Linux语音识别选项的讲座:


2
关于您发现的“不满意”的一些细节可能会使您原本有趣但颇为笼统的发帖主题。例如:您对“葡萄酒+龙自然说话”组合感到不满意的是什么?(它是如何无法复制Windows体验的?)
Theophrastus

1
@Theophrastus基本上所有本机Linux解决方案都具有较差的准确性和可用性。准确度差是指准确度大大低于我在其他平台上提到的语音识别软件。至于红酒+龙NaturallySpeaking,在我的经验,不断崩溃,我似乎并没有是有这样的问题,很遗憾(只有一个appdb.winehq.org/...
弗兰克Dernoncourt

1
我没有尝试过这些,但是万一有人发现它有用:github.com/Uberi/speech_recognitionjasperproject.github.iogithub.com/benoitfragit/google2ubuntu
Hatshepsut

这些软件中是否有一个具有命令行工具?将语音识别与诸如xdotool(github.com/jordansissel/xdotool)或xsendkey(github.com/kyoto/sendkeys)之类的按键和鼠标移动工具相结合将是非常有趣的。
baptx

Answers:


13

现在,我正在尝试在Android智能手机上结合使用KDE connect和Google语音识别。

KDE connect允许您将android设备用作Linux计算机的输入设备(还有其他一些功能)。您需要从智能手机/平板电脑上的Google Play商店安装KDE Con​​nect应用程序,并在Linux计算机上同时安装kdeconnect和indicator-kdeconnect。对于Ubuntu系统,安装过程如下:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

此安装的缺点是,如果不使用KDE桌面环境,它将安装一堆不需要的KDE软件包。

将android设备与计算机配对(它们必须位于同一网络上)后,您可以使用android键盘,然后在麦克风上单击/按以使用Google语音识别。当您讲话时,文本将开始出现在Linux计算机上光标处于活动状态的任何位置。

至于结果,对我来说有些混乱,因为我目前正在写一些技术性的天体物理学文档,而Google语音识别正在为您通常不读的术语而苦苦挣扎。还要忘记弄清楚标点符号或适当的大小写。

在此处输入图片说明

在此处输入图片说明



3

当另一个Linuxer寻找有用的语音到文本(听写)程序时,我看了一下speechpad.pw:

  • 它很好地认识了我的母语
  • 它工作迅速且非常可靠

缺点:

  • 当然,它是Google专有和封闭的软件
  • Google服务会监听,处理并假设存储您说的每个单词
  • 音频和文字将由Google处理并明显存储
  • speechpad.pw需要每月/每季度/每年的订阅费
  • speechpad.pw仅作为Google Chrome浏览器的附件运行,而没有其他浏览器

因此,speechpad.pw是非常专有的,也是封闭源,并且也绑定到Google,众所周知,它是不眠之夜的元数据,个人信息和个人内容收集器。

这些缺点使我无法使用它,尽管语音识别本身效果很好-远比我到目前为止看到的任何东西都要好。


谢谢,是的,还有很大的缺点,尤其是它只能在Chrome浏览器中使用。
Franck Dernoncourt

1
您可以在Chrome上使用Google文档,并使用其“工具”»“语音输入...”选项。可能完全相同的语音识别软件,但它是免费的。然后将结果从文档复制粘贴到需要文本的位置。
亚历克西斯·威尔克

2

Chrome应用“ VoiceNote II”(http://voicenote.in/)在我的Xubuntu 16.04计算机上运行良好。无需语音培训,设置简单。一键搜索即可找到它,一键安装,一键创建快捷方式并将其绑定到桌面。


谢谢,不过只能在Google Chrome中使用
Franck Dernoncourt

0

我建议您在手机或平板电脑上使用Dragon,然后通过电子邮件将其发送给自己。它是一个阻力,但它可以正常工作并且非常准确。如果您坚持为此使用Linux,那么获得第二个显示将使复制和过去的生活变得更加容易。

我没有尝试过,但是您可能可以在平板电脑/手机上使用Dragon来使用或改编Python蓝牙聊天程序。可能还有一些用于移动设备的远程键盘应用程序,它们可能支持听写输入。

我将尝试并尝试与您联系,以提供更多确定性信息。


0

我正在使用KD Connect应用程序。它工作得很有效!在桌子上用手机讲话时,我可以盯着显示器。唯一的缺点是,这是通过Google键盘完成的。它既不是免费的,本机的也不是开源的。此评论已发布,没有进行任何类型的更正


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.