如何将电话音频分为静音/非静音?


9

我的问题是我不知道背景噪声的能量,所以我不能仅仅限制能量。处理是实时完成的,我大约需要500毫秒来决定。理想情况下,我希望将安静的辅音视为非静音。


6
我没有足够的信息来提供完整的答案,但是您的问题被称为语音活动检测。没有一个达成共识的最佳方法,而且如果您看的话,可能会遇到许多不同的方法。也许其他一些可以充实它。
詹森·R

@Michael Litvin,有一类非线性滤波器(在“能量检测”中使用,名称为“ Teager-Kaiser”。我认为它是所谓的“ voltera内核”的子集。对不起,我无法提供任何更多信息,但如果您搜索这些单词,您可能会找到所需的信息。我知道,Teager-Kaiser方法用于“何时”鲸鱼的声音相对于背景噪声才开始
。– Spacey

Answers:


4

您可以查看许多参数:

  1. 总能量
  2. 短期频谱:语音具有相当独特的“粉红色”频谱,如果以电为主,则噪声(在非语音部分期间发生)趋于白色,如果是声学背景,则趋于“红色”(即低频沉重)噪音或麦克风噪音
  3. 幅度统计。大多数噪声信号具有高斯分布,语音更接近拉普拉斯分布

我认为这三者的结合应该提供一个相当强大的检测方案。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.