Answers:
您是要检测语音还是非语音,还是要区分各种非语音声音?你的问题我不清楚。
我认为一种不错的第一种方法是将信号阻塞到帧中并计算梅尔频率倒谱系数(MFCC),增量MFCC(相邻帧的MFCC之间的差异)和增量-增量MFCC(MFCC之间的差异)在相隔两帧的帧中)。这不是唯一的方法,但是如果没有更具体的问题域知识,这可能是一个不错的起点。
如果您还不熟悉MFCC,那么只是使用Google搜寻就应该为您提供一些有关如何计算MFCC的良好参考。基本上,您采用DFT,采用幅度,计算与人耳相对应的三角形窗口内的能量,采用这些系数的DCT(本质上是作为压缩步骤),然后丢弃高阶系数,通常只采用前十二个系数。在这篇文章中,我对DCT步骤的含义进行了解释:如何在MFCC提取过程中解释DCT步骤?
然后,您可以说将这些系数用作SVM的特征。