特征提取以进行声音分类


15

我正在尝试从声音文件中提取特征,并将声音分类为属于特定类别(例如:狗吠,汽车引擎等)。我想在以下方面做一些澄清:

1)这完全可行吗?有些程序可以识别语音,并可以区分不同类型的狗吠。但是,是否有可能有一个程序可以接收声音样本并仅说明它是哪种声音?(假设有一个包含很多声音样本的数据库)。输入的声音样本可能有点嘈杂(麦克风输入)。

2)我假设第一步是音频特征提取。文章建议提取的MFCC并将这些资料传送到机器学习算法。MFCC是否足够?还有其他通常用于声音分类的功能吗?

感谢您的时间。

Answers:


15
  1. 从长远来看,它是可行的-在什么程度上呢?你会看见。环境声分类的这项任务还没有得到很好的研究。机器学习范式的选择也很关键-统计方法还是二进制分类器?您可以从GMM,ANN和SVM开始-我选择GMM和ANN。
  2. 是的,大多数人都在使用MFCC,因为它们与人们实际听到的声音紧密相关,而且自那时以来,没有人提出更好的建议。您可能还需要添加其他功能,例如MPEG-7描述符。必须执行适当的功能优化,因为有时您不需要太多功能,尤其是当它们不可分离时。有关更多信息,请参阅我以前的答案:

从光谱中提取特征

MFCC提取

声音检测


晚上我会扩大答案。
jojek

仍在等待扩展答案...
Nithin

在晚上...
jojek

4

非语言音频(更不用说环境了)似乎是主流机器学习媒体类型(如图像,语音,文本)的弟弟。

要回答您的问题,是否可以训练网络来识别给定的声音?是的!但是出于所有相同的原因,很难学习机器学习。

但是,真正使Audio退缩的原因,以及为什么我称它为图像和语音的小兄弟,是因为Audio缺少大规模的标签数据集。对于语音,有TIMIT;对于图像,有ImagenNet,CIFAR,Caltech;对于文本和自然语言处理,有大量文献等。

据我所知,最大的两个非人类语音标签音频数据集是UrbanSounds和ESC-100数据集,对于真正的深度学习方法而言,它们的体积很小。在使用2层ConvNet的这些数据集上,有些公开的混合结果。

MFCC特征通常是语音识别和音频分析中公认的基线特征表示。但是还有大量其他音频功能表示!该给出了音频功能类型的一个很好的分类法。

我最近看到的最令人兴奋的声音分类工作是由DeepMind的一些人(称为WaveNet)完成的


3

是一个针对10类声音分类的解决方案:狗叫,汽车喇叭,儿童游戏等。它基于使用神经网络的张量流库。通过将声音片段转换为频谱图来提取特征


3
仅仅链接还不足以作为答案。
吉尔斯(Gilles)

是的,请扩展链接上的内容。
彼得·K。

2
但是仍然感谢您的链接。
凯文·马丁·何塞

实际上,我还试图了解有关链接中提供的教程中使用的技术的更多信息。我是计算机视觉和图像处理专家,所以我对声音信号的了解非常有限。当我有了一些更好的理解时,我将尝试详细说明答案。
abggcv

1

是的,这是非常可行的。尽管神经网络在这种分类训练方面很出色,但甚至没有必要-具有精选的功能集,仅经典聚类算法(例如高斯混合模型或主成分分析)也可能会做。现代图书馆大约95%或更多的时间可以正确处理这些内容。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.