如何理解卷积深度信念网络进行音频​​分类?


11

Lee等人在“ 用于分层表示的可扩展无监督学习的卷积深度信念网络 ”中。(PDF)提出了卷积DBN。还对该方法进行了图像分类评估。这听起来很合逻辑,因为具有自然的局部图像特征,例如小角和边缘等。

Lee等人在“ 使用卷积深度置信网络进行音频​​分类的无监督特征学习 ”中。等 此方法适用于不同类别的音频。说话者识别,性别识别,电话分类以及一些音乐流派/艺术家分类。

如何将网络的卷积部分解释为音频,就像将图像解释为边缘一样?


谁有论文的代码?

Answers:


9

音频应用是二维图像分类问题的一维简化。音素(例如)是图像特征(如边缘或圆形)的音频模拟。无论哪种情况,此类特征都具有基本的局部性:它们的特征在于图像位置或语音瞬间的相对较小邻域内的值。卷积是局部邻域内值的加权平均的受控规则形式。由此产生了一种希望,即DBN 的卷积形式可以成功地识别和区分有意义的特征。


1

在将卷积RBM应用于音频数据的情况下,作者首先采用了短期傅立叶变换,然后在频谱上定义了能带。然后,他们在该转换后的音频上应用了卷积RBM。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.