Questions tagged «mfcc»

2
如何解释MFCC提取过程中的DCT步骤?
在大多数音频处理任务中,最常用的转换之一是MFCC(梅尔频率倒谱系数)。 我最了解MFCC背后的数学原理:我了解滤波器组步骤和梅尔频率定标。 我没有得到的是DCT(离散余弦变换)步骤:在此步骤中我可以获得什么信息?此步骤的视觉效果如何?

1
帮助计算/理解MFCC:梅尔频率倒谱系数
我一直在网上阅读点点滴滴,但我无法将它们拼凑在一起。我对信号/ DSP有一定的背景知识,应该足以满足此要求。我有兴趣最终使用Java对该算法进行编码,但是我还不完全了解它,这就是为什么我在这里(它算作数学,对吗?)。 我认为这与我的知识差距一起起作用。 从您的音频语音样本开始,比如说一个.wav文件,您可以将其读入数组。把这种阵列,其中Ñ范围为0 ,1 ,... ,ñ - 1(所以Ñ样品)。这些值对应于我猜想的音频强度-振幅。x[n]x[n]x[n]nnn0,1,…,N−10,1,…,N−10, 1, \ldots ,N-1NNN 将音频信号分成10ms左右的不同“帧”,假设语音信号是“固定的”。这是量化的一种形式。因此,如果您的采样率为44.1KHz,则10ms等于441个采样或值。x[n]x[n]x[n] 进行傅立叶变换(为计算起见,使用FFT)。现在,这是在整个信号上还是在每个单独帧上完成的?我认为这是有区别的,因为一般来说,傅立叶变换会查看信号的所有元素,因此F(x [ n ] )≠ F(x 1 [ n ] )与F(x 2 [ n ] )与... F结合(x N [ n ] )其中xx[n]x[n]x[n]F(x[n])≠F(x1[n])F(x[n])≠F(x1[n])\mathcal F(x[n]) \neq \mathcal F(x_1[n])F(x2[n])F(x2[n])\mathcal F(x_2[n])…F(xN[n])…F(xN[n])\ldots \mathcal F(x_N[n])是较小的帧。无论如何,假设我们进行了一些FFT,最后剩下 X [ k ]。xi[n]xi[n]x_i[n]X[k]X[k]X[k] 映射到梅尔刻度,并进行记录。我知道如何将常规频率数字转换为梅尔刻度。对于每个的X [ ķ ]:(以下简称“x轴”如果你让我),你可以在这里做公式http://en.wikipedia.org/wiki/Mel_scale。但是,“ …

1
倒谱均值归一化
谁能解释倒谱均值归一化,卷积的等效性如何影响它?是否必须在基于MFCC的说话人识别中执行CMN?为什么卷积的属性是MFCC的基本需求? 我对这种信号处理非常陌生。请帮忙
15 mfcc 

4
特征提取以进行声音分类
我正在尝试从声音文件中提取特征,并将声音分类为属于特定类别(例如:狗吠,汽车引擎等)。我想在以下方面做一些澄清: 1)这完全可行吗?有些程序可以识别语音,并可以区分不同类型的狗吠。但是,是否有可能有一个程序可以接收声音样本并仅说明它是哪种声音?(假设有一个包含很多声音样本的数据库)。输入的声音样本可能有点嘈杂(麦克风输入)。 2)我假设第一步是音频特征提取。该文章建议提取的MFCC并将这些资料传送到机器学习算法。MFCC是否足够?还有其他通常用于声音分类的功能吗? 感谢您的时间。

3
这是对MFCC计算中DCT步骤的正确解释吗?
这是这里讨论的延续。我会在那发表评论,但我没有50名代表,所以我想提出一个新问题。 这就是我对MFCC计算过程中DCT步骤的理解:其背后的原理是,由于滤波器的重叠,将对数谱幅值的相关性(与滤波器组分开)。从本质上讲,DCT平滑了由这些对数频谱幅度给出的频谱表示。 正确地说,下图中的蓝线代表对数谱幅值矢量所代表的光谱,而红线是经过DCT校正后的矢量吗?
9 mfcc  dct 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.