识别歌曲中的数学函数


12

我是DSP的新手,刚刚发现了这个StackExchange,因此,如果不是发布此问题的正确位置,请道歉。

是否有资源以更数学的术语描述类型?例如,如果我已经对歌曲这一部分的信号执行了FFT(如果链接没有从那里开始,则是2:09),那么我有什么办法可以检测到该部分的分类很粗糙的声音?这样的声音是否遵循我可以比较的一些数学函数? http://www.youtube.com/watch?v=SFu2DfPDGeU&feature=player_detailpage#t=130s(链接立即开始播放声音)

是使用监督学习技术的唯一方法,还是有其他方法(最好不需要监督)?

感谢您的任何建议。


您可以使用FFT来检测鼓音与长笛,但不能检测流派。当然,关于声音的地方性内容,但不是整个文件的音乐特征。
endlith 2011年

是否可以识别声音的“粗糙度”?这是MFCC发挥作用的地方吗?
XSL

Answers:


10

我认为您要寻找的区别更像是经验性的还是理论性的(而不是有监督的与无监督的),但是我对此可能是错误的。换句话说,理想的事情是具有各种流派的理论定义,而不是一堆不透明的数据(可用于对歌曲进行分类)(没有任何真正的理解)。

但是,对于一般的体裁分类,即使最初只是创建体裁的定义,您也可能至少受过示例训练。关于您的示例,请考虑人们在[YouTube上]会多久争论一次给定的曲目是否真的很笨拙(例如,即使该曲目开始时没有任何真正的摆动,但任何曲目都更笨拙,更不稳定)。人们通过示例来定义类型随时间的变化,因此可以合理预期复制该行为的算法也需要一些示例。人们描述类型的方式几乎就像一个特征向量 无论如何,他们会询问有关这首歌的问题列表(例如,它是否更断断续续或颤抖?它是否有很多低音提琴?它持续多长时间?节奏是多少?有声乐吗?等)。

当然,您可以选择一系列功能,这些功能也可以直观地了解该类型。诸如“动态范围”之类的功能也可以被人用耳朵察觉,但是诸如“时域零交叉”之类的功能就不是很直观的,即使它可以很好地用于分类。以下论文具有许多您可能会感兴趣的功能:

Perry R. Cook的George Tzanetakis:音频信号的音乐流派分类。IEEE语音和音频处理事务10(5):293-302(2002)链接

为了测量粗糙度,心理声学粗糙度将是一个不错的起点,但是例如,不能区分双步引线和电引线。对于更细微的区别,要研究的一件事是音色识别。以下论文对技术进行了不错的概述:

TH Park,“迈向自动乐器音色识别”,博士学位。论文,普林斯顿大学,新泽西州,2004年。链接

音色,调谐,频谱和音阶 中还有一个与感知粗糙度相关的模型用于为任意音色构建自定义音阶。这个想法是,非常接近的谐波会产生拍频,这种拍频被认为是不和谐的。从附录F和E改写,

当是部分频率为的频谱时,固有共振频率[假设单位振幅]为˚F 1˚F 2˚F ñFf1,f2,...,fn

DF=1/2 i=1n j=1n d(|fifj|min(fi,fj))

其中

d(x)=e3.5xe5.75x

Plomp-Levelt曲线的模型。

它用于测量给定的和弦相对于音色的悦耳程度(通过最小化不谐音)。我不知道心理声学变化的粗糙程度或固有的不和谐是否会为您自己的目的带来丰硕的成果,但是将它们与其他指标结合使用可能会很有用。

数学上对音色进行分类的运气可能会比流派高。例如,弦具有偶数和奇数谐波,而单簧管仅具有奇数谐波(参见锯齿波方波)。Dubstep抖动通常是由LFO驱动的滤波器(低通和/或共振峰滤波器)完成的,因此像Spectral Flux(参见上面的[Tzanetakis])这样的功能可能是一个不错的起点。但是,我怀疑有人研究过摆动的数学分类吗;)


2
datageist的出色响应。如果您正在寻找更多信息和带有源代码的开发平台,我也建议isophonics.net/QMVampPlugins
Dan Barry

@Dan看起来很棒,感谢您的链接。
datageist

我找到了一个学习的利基学科!:D感谢您出色的回答和链接。它为我指明了方向,而不是漫无目的地使用Google。
XSL

很高兴提供帮助:)
datageist
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.