在回答我之前的问题时,我想知道是否存在任何语音检测库。通过语音检测,我的意思是传递音频缓冲区并获取语音开始和停止位置的索引。因此,如果我在44kHz的频率下有10秒的音频采样时间,那么我希望得到一个数字数组,例如:
44000
88000
123000
190334
...
例如,这将表明语音从一秒钟开始,然后在两秒钟之内结束,依此类推。
我不需要的是语音识别,它可以从口语单词中写出文字。不幸的是,这是我在Google“语音检测”中看到的很多内容。
如果该库是C,C ++甚至是Objective-C,那将非常好,因为我正在为iPhone编写应用程序。
谢谢!
1
:您可能会发现在这些答案中的一个答案dsp.stackexchange.com/questions/912/...
—
Geerten
这非常相似,只是唱歌而不是讲话:dsp.stackexchange.com/q/2367/29
—
endolith,2012年
同样相关:dsp.stackexchange.com/a/1543/29 “语音活动检测”
—
endolith 2012年
您应该研究开始/偏移检测。它是活跃的领域,在音乐,语音和雷达信号处理中有许多应用。
—
CyberMen 2012年