我认为您要寻找的区别更像是经验性的还是理论性的(而不是有监督的与无监督的),但是我对此可能是错误的。换句话说,理想的事情是具有各种流派的理论定义,而不是一堆不透明的数据(可用于对歌曲进行分类)(没有任何真正的理解)。
但是,对于一般的体裁分类,即使最初只是创建体裁的定义,您也可能至少受过示例训练。关于您的示例,请考虑人们在[YouTube上]会多久争论一次给定的曲目是否真的很笨拙(例如,即使该曲目开始时没有任何真正的摆动,但任何曲目都更笨拙,更不稳定)。人们通过示例来定义类型随时间的变化,因此可以合理预期复制该行为的算法也需要一些示例。人们描述类型的方式几乎就像一个特征向量 无论如何,他们会询问有关这首歌的问题列表(例如,它是否更断断续续或颤抖?它是否有很多低音提琴?它持续多长时间?节奏是多少?有声乐吗?等)。
当然,您可以选择一系列功能,这些功能也可以直观地了解该类型。诸如“动态范围”之类的功能也可以被人用耳朵察觉,但是诸如“时域零交叉”之类的功能就不是很直观的,即使它可以很好地用于分类。以下论文具有许多您可能会感兴趣的功能:
Perry R. Cook的George Tzanetakis:音频信号的音乐流派分类。IEEE语音和音频处理事务10(5):293-302(2002)链接。
为了测量粗糙度,心理声学粗糙度将是一个不错的起点,但是例如,不能区分双步引线和电引线。对于更细微的区别,要研究的一件事是音色识别。以下论文对技术进行了不错的概述:
TH Park,“迈向自动乐器音色识别”,博士学位。论文,普林斯顿大学,新泽西州,2004年。链接。
在音色,调谐,频谱和音阶 中还有一个与感知粗糙度相关的模型,用于为任意音色构建自定义音阶。这个想法是,非常接近的谐波会产生拍频,这种拍频被认为是不和谐的。从附录F和E改写,
当是部分频率为的频谱时,固有共振频率[假设单位振幅]为˚F 1,˚F 2,。。。,˚F ñFf1,f2,...,fn
DF=1/2 ∑i=1n ∑j=1n d(|fi−fj|min(fi,fj))
其中
d(x)=e−3.5x−e−5.75x
是Plomp-Levelt曲线的模型。
它用于测量给定的和弦相对于音色的悦耳程度(通过最小化不谐音)。我不知道心理声学变化的粗糙程度或固有的不和谐是否会为您自己的目的带来丰硕的成果,但是将它们与其他指标结合使用可能会很有用。
数学上对音色进行分类的运气可能会比流派高。例如,弦具有偶数和奇数谐波,而单簧管仅具有奇数谐波(参见锯齿波,方波)。Dubstep抖动通常是由LFO驱动的滤波器(低通和/或共振峰滤波器)完成的,因此像Spectral Flux(参见上面的[Tzanetakis])这样的功能可能是一个不错的起点。但是,我怀疑有人研究过摆动的数学分类吗;)