数据科学 audio-recognition

借助频谱图进行深度学习以进行声音识别

我正在研究使用频谱图对声音（例如动物的声音）进行分类的可能性。这个想法是使用深层卷积神经网络识别光谱图中的片段并输出一个（或多个）类标签。这不是一个新主意（例如，参见鲸鱼声音分类或音乐风格识别）。我面临的问题是我有不同长度的声音文件，因此有不同大小的声谱图。到目前为止，我所见过的每种方法都使用固定大小的声音样本，但我不能这样做，因为我的声音文件可能长达10秒或2分钟。例如，在开头有鸟声，在结尾有青蛙声（输出应为“ Bird，Frog”）。我当前的解决方案是向神经网络添加一个时间成分（创建更多的递归神经网络），但是我想暂时保持简单。有任何想法，链接，教程...吗？

12 deep-learning multilabel-classification audio-recognition

卷积层与普通的卷积网络有何不同？

我目前正在对重建这一结果纸。在本文中，他们描述了一种使用CNN进行特征提取的方法，并具有Dnn-hmm的声学模型，并使用RBM进行了预训练。第三节A小节陈述了可以表示输入数据的不同方式。我决定垂直堆叠静态，增量和增量增量的频谱图。因此：然后，本文描述了网络的运行方式。他们声明他们使用了卷积网络，但是关于网络的结构却一无所知。此外，网络是否始终被称为卷积层？我敢肯定，与普通的网络卷积神经网络（cnn）相比，我看不出任何区别。该文件就差异指出了这一点：（摘自第三节B小节）但是，卷积层在两个重要方面与标准的完全连接的隐藏层不同。首先，每个卷积单元仅从输入的局部区域接收输入。这意味着每个单元代表输入局部区域的某些特征。其次，卷积层的单元本身可以组织为多个特征图，其中同一特征图中的所有单元共享相同的权重，但从较低层的不同位置接收输入我想知道的另一件事是，该论文是否实际陈述了馈送dnn-hmm声学模型所需的输出参数。我似乎无法解码过滤器的数量，过滤器的大小..网络的一般细节？

9 neural-network convnet feature-extraction audio-recognition

Questions tagged «audio-recognition»