MFCC是向检索系统表示音乐的最佳方法吗?


10

信号处理技术(梅尔频率倒谱)通常用于从音乐作品中提取信息,以用于机器学习任务。该方法给出了短期功率谱,并且将系数用作输入。

在设计音乐检索系统时,这些系数被认为是乐曲的特征(显然不一定是唯一的,而是有区别的)。有没有更适合通过网络学习的特征?诸如Elman网络之类的乐器所使用的随时间变化的特征(例如低音效果)会更有效吗?

哪些特征将构成可以进行何种分类的足够广泛的集合?


您正在寻找特定音频剪辑的独特品质的检索工作吗?还是要确定类似的音乐?
安德鲁·罗森伯格

@AndrewRosenberg在识别相似音乐方面更多。
jonsca '02

(几年后),有很多方法可以修改MFCC。Kinunnen等人,“ 频率扭曲和健壮的说话者验证:替代梅尔音阶表示的比较”, 2013年,第5页,使用60个系数。并且,优化什么?在什么非开放式数据库上?所以我想(非专家)说这个问题太广泛了,无法回答。
denis 2014年

@denis感谢您提供信息。这是来自命运多Machine的机器学习测试版(第一次出现)。我知道这有点含糊。
jonsca 2014年

Answers:


8

我们在这一点上做了一些工作。我们在NIPS研讨会论文中给出了我们提取的功能集。我不得不承认,我们无法复制该领域其他一些作者的结果,尽管对于其中使用的数据集存在一些疑问(请注意,该领域中的作者使用的数据集往往是手工挑选的而不是发布的出于版权原因向公众开放,尽管并非总是如此)。本质上,它们都是短期频谱特征也加入了自回归系数。我们正在研究类型的分类,我们知道这种分类可以在很短的时间间隔(<1s)内由人类完成(尽管准确性不高,并且不一致。。。)可以验证短期特征的使用。如果您对做比典型的流派/艺术家/专辑/制作人分类更复杂的事情感兴趣,那么您可能需要更多的远程特征,否则这些短期频谱特征往往表现最佳。


放入AR系数的目的是什么?
jonsca 2012年

1
@jonsca因为我们使用的是通过结合许多“弱”学习者而起作用的增强方法,所以我们决定使用可以轻松计算并可以带来一些好处的任何功能。弱学习者要使其有用就需要做的所有事情就是,它可以大于机会级别进行分类。AR系数等效于频谱包络的​​压缩,尽管只是非常宽松,但它给出了该窗口内音乐的短期信息复杂性的某种概念。
tdc 2012年

@tdc,“数据集通常不会向公众发布...”:您是否知道任何带有标记音素的免费在线语音数据集?
denis 2014年

@denis我所知道的唯一一个就是这个:orange.biolab.si/datasets/phoneme.htm
tdc

@tdc,谢谢,但这只是Stat学习元素的11个元音,〜1000 x 11个功能(古老的LPC)。
denis 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.