我正在研究使用频谱图对声音(例如动物的声音)进行分类的可能性。这个想法是使用深层卷积神经网络识别光谱图中的片段并输出一个(或多个)类标签。这不是一个新主意(例如,参见鲸鱼声音分类或音乐风格识别)。
我面临的问题是我有不同长度的声音文件,因此有不同大小的声谱图。到目前为止,我所见过的每种方法都使用固定大小的声音样本,但我不能这样做,因为我的声音文件可能长达10秒或2分钟。
例如,在开头有鸟声,在结尾有青蛙声(输出应为“ Bird,Frog”)。我当前的解决方案是向神经网络添加一个时间成分(创建更多的递归神经网络),但是我想暂时保持简单。有任何想法,链接,教程...吗?