Questions tagged «audio-recognition»

2
借助频谱图进行深度学习以进行声音识别
我正在研究使用频谱图对声音(例如动物的声音)进行分类的可能性。这个想法是使用深层卷积神经网络识别光谱图中的片段并输出一个(或多个)类标签。这不是一个新主意(例如,参见鲸鱼声音分类或音乐风格识别)。 我面临的问题是我有不同长度的声音文件,因此有不同大小的声谱图。到目前为止,我所见过的每种方法都使用固定大小的声音样本,但我不能这样做,因为我的声音文件可能长达10秒或2分钟。 例如,在开头有鸟声,在结尾有青蛙声(输出应为“ Bird,Frog”)。我当前的解决方案是向神经网络添加一个时间成分(创建更多的递归神经网络),但是我想暂时保持简单。有任何想法,链接,教程...吗?

1
卷积层与普通的卷积网络有何不同?
我目前正在对重建这一结果纸。在本文中,他们描述了一种使用CNN进行特征提取的方法,并具有Dnn-hmm的声学模型,并使用RBM进行了预训练。 第三节A小节陈述了可以表示输入数据的不同方式。我决定垂直堆叠静态,增量和增量增量的频谱图。 因此: 然后,本文描述了网络的运行方式。他们声明他们使用了卷积网络,但是关于网络的结构却一无所知。此外,网络是否始终被称为卷积层?我敢肯定,与普通的网络卷积神经网络(cnn)相比,我看不出任何区别。 该文件就差异指出了这一点: (摘自第三节B小节) 但是,卷积层在两个重要方面与标准的完全连接的隐藏层不同。首先,每个卷积单元仅从输入的局部区域接收输入。这意味着每个单元代表输入局部区域的某些特征。其次,卷积层的单元本身可以组织为多个特征图,其中同一特征图中的所有单元共享相同的权重,但从较低层的不同位置接收输入 我想知道的另一件事是,该论文是否实际陈述了馈送dnn-hmm声学模型所需的输出参数。我似乎无法解码过滤器的数量,过滤器的大小..网络的一般细节?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.