在寻找这个问题的答案时,我发现这个董事会决定从Stack Overflow 交叉发布我的这个问题。
我正在寻找一种确定音频片段和人类语音之间相似性的方法,该相似性以数字表示。
我已经搜索了很多,但是到目前为止(以下详细介绍)我发现的内容并不完全符合我的需要:
一种方法是使用语音识别软件从音频片段中获取单词。但是,这种方法无法提出与人类语音“相似”的音频。它通常可以判断音频中是否有单词,但是如果没有确定的单词,就无法判断音频是否包含这些单词。
示例:CMU狮身人面像,蜻蜓,SHoUT更有希望的方法称为语音活动检测(VAD)。但是,这往往会有相同的问题:使用VAD的算法/程序倾向于仅返回是否已达到活动阈值,并且在该阈值之前或之后都没有“相似性”值。另外,许多人只是在寻找音量,而不是与人类语音相似。
示例:Speex,Listener,FreeSWITCH
有任何想法吗?