时间数据的模式识别

9

我正在尝试检测和分类非语音声音。当前，我正在使用来自训练声音的一系列移动重叠功率谱作为我要寻找的功能。

当我进行分析时，我只是在计算相同数量的重叠光谱，以使特征数量相同。现在的性能还不是很好，它只能检测静音与不静音。

这种信号检测有哪些技术？我担心的一个问题是，由于时域中不同长度的声音会导致特征向量的长度不同，因此我不能使用相同的分类器，因此我会坚持这一点。

audio

— uf
source

3

您是要检测语音还是非语音，还是要区分各种非语音声音？你的问题我不清楚。

我认为一种不错的第一种方法是将信号阻塞到帧中并计算梅尔频率倒谱系数（MFCC），增量MFCC（相邻帧的MFCC之间的差异）和增量-增量MFCC（MFCC之间的差异）在相隔两帧的帧中）。这不是唯一的方法，但是如果没有更具体的问题域知识，这可能是一个不错的起点。

如果您还不熟悉MFCC，那么只是使用Google搜寻就应该为您提供一些有关如何计算MFCC的良好参考。基本上，您采用DFT，采用幅度，计算与人耳相对应的三角形窗口内的能量，采用这些系数的DCT（本质上是作为压缩步骤），然后丢弃高阶系数，通常只采用前十二个系数。在这篇文章中，我对DCT步骤的含义进行了解释：如何在MFCC提取过程中解释DCT步骤？

然后，您可以说将这些系数用作SVM的特征。

— 施纳尔夫
source

2

我认为您通常正在研究语音检测的问题，这种问题一直存在，并且到现在为止，已经开发出了无数种方法来解决此问题。例如，看起来本文也使用了光谱技术，因此您可能要从这里开始。良好的旧Google搜索将返回许多结果，并提供论文和文章的链接。

通常，语音检测有两种截然不同的方法。一种允许假定良好的语音噪声比（语音比环境噪声，音乐和其他不相关的内容响亮），另一种则不进行此类假设，而是尝试在非常嘈杂的信号中识别语音的存在（语音掩埋在噪声）。根据您要尝试的内容，您最终将看到非常不同的论文。也许，如果您稍微澄清一下您的问题并详细说明您正在使用的语音信号类型，则该站点可能会有所帮助。

— 声子
source