Answers:
非语言音频(更不用说环境了)似乎是主流机器学习媒体类型(如图像,语音,文本)的弟弟。
要回答您的问题,是否可以训练网络来识别给定的声音?是的!但是出于所有相同的原因,很难学习机器学习。
但是,真正使Audio退缩的原因,以及为什么我称它为图像和语音的小兄弟,是因为Audio缺少大规模的标签数据集。对于语音,有TIMIT;对于图像,有ImagenNet,CIFAR,Caltech;对于文本和自然语言处理,有大量文献等。
据我所知,最大的两个非人类语音标签音频数据集是UrbanSounds和ESC-100数据集,对于真正的深度学习方法而言,它们的体积很小。在使用2层ConvNet的这些数据集上,有些公开的混合结果。
MFCC特征通常是语音识别和音频分析中公认的基线特征表示。但是还有大量其他音频功能表示!该文给出了音频功能类型的一个很好的分类法。
我最近看到的最令人兴奋的声音分类工作是由DeepMind的一些人(称为WaveNet)完成的。