哪种音频数学模型可以使(音色复杂)复音中单个音符的音高发生变化?


24

我的问题是:在和弦声学乐器的多声道单通道录音中,哪种和弦声音数学模型可以使单个音符发生变化(即音高变化)?通过“改变和弦音频中的音符”,我的意思是使用celeony的Melodyne软件中所谓的“ 直接音符访问 ”功能来编辑声音。

根据Wikipedia的说法,Melodyne用于模拟在声学(因而复杂的音色)乐器上演奏的单线旋律的音频信号的方式类似于Henning Thielemann在他的论文中所描述的,即“ 在单音中解开相位和时间 ”。我找不到关于复音乐器的音频信号模型的任何参考资料。根据Peter Neubacker 在Youtube上一次采访(见下文),Melodyne的用于编辑和弦音频的功能需要一种不同于Thielemann描述的方法。

另一个YouTube剪辑中获得的一个线索是,Neubacker的模型与仅一种乐器的音频记录(即,仅钢琴,仅吉他,仅弦乐器,仅管乐等)的录音效果更好。另一个提示是另一个剪辑,它显示了不仅可以改变音符的音高,而且还可以改变音符的(开始和结束)时机。


以下是youtube视频的录音笔录,其中提到“和弦材料需要一种不同的方法”(以防您没有时间从22:00开始观看)。

  • 问题是由哪个Melodyne引起的:如何从这样的3维形式[用手打手势]中获得声音?这样,声音就可以摆脱对连续时间的依赖了吗?这个雕塑实际上就是由此产生的……这是一块塑料……。它直接来自音乐数据。这个对象是[在琵琶上摘一个音符]这个音符。最好从左到右将其可视化。时间沿着这个方向运行(从左到右手势)。这就是振幅(用手指相对的拇指示意大和小)。如果我打开它,它表示任何给定实例的声音音色。您可以在此处非常清楚地看到某种结构(指向雕塑底部的横截面),该结构有些三角形。那是因为在这种声音中

    由于Melodyne尚不存在,而我只是在尝试将声音转换为这种形状,因此我使用这种声音工作了将近一年。...我内心深处都知道这种声音。这也很好地说明了本地声音。我不仅可以播放[点击鼠标]的声音,还可以输入任意一点的声音,并根据自己的需要缓慢或快速地移动声音。我什至可以在声音中徘徊,或者向前或向后移动,所以如果我在这里检查一个地方,请绕开它。...十年前还很新。

    最近添加了dna(直接注释访问)。有了它,我也可以编辑和弦音乐。换句话说,我可以单独编辑同时发声的音符,例如吉他录音。如果现在我弹一个小和弦[在屏幕上选择[Poly-> Separate Notes],我们在这里看到我刚刚作为独立实体演奏的3个音符。让我们再听一遍[计算机演奏和弦]。现在,好像将手指移到更高的品格上一样,我可以举起这一个音符[在屏幕上拖动音符;电脑演奏大和弦]。对于分开的音频,我可以隔离此音符,现在可以随意向上或向下移动它到我想要的任何音高。

    为什么以前没有人能够以这种方式隔离复杂材料中的单个音调?老实说我不知道​​。在科学中,自然趋势是从简单的事物开始,例如正弦波或单个音符,然后首先进行分析,以发现何时该材料变得更加复杂,或者必须对整个系统进行处理。不起作用。我的方法是不同的。我实际上是从复杂的信号开始的,只有当我想详细研究某些东西时,才回到简单的信号上,但是首先,我必须对现实中实际发生的事情有一个总体印象。

    秘密可能就在于此吗?呵呵,这实际上是一卷。石头最初提出的问题是我如何将给定的声音转换为三维形式。在这里,我已将声音的各个采样值排列成螺旋形,在此用一,二,三等表示。事实证明,如果在点之间进行插值(沿螺旋形手势),就会出现一个景观,该景观也代表声音中的各个横截面(雕塑的手势横截面)。

    卷多大了?12年。所以这个想法是Melodyne的源泉,在我们今天所看到的一切中……?是的,但是这种将声音盘绕的方式将不再用于复音材料,这需要一种不同的方法。


现在没有时间,但是您可能想阅读Bill Sethares的有关Consonance的一些作品。在接下来的几天中,我将尽力消化您的信息并做出更全面的回答。
彼得·K。

我不确定是什么问题。隔离单个音符并“聚集声音”使我想到将螺旋频谱环绕起来,以使音符的谐波彼此对齐nastechservices.com/Spectrograms.html nastechservices.com/Spectratune.html
endolith

Answers:


12

TL; DR?Google Scholar用于谐波部分分离


一个很好的起点是将信号分成正弦+噪声(确定性和随机性)分量的正弦建模技术。由正弦组成的确定性组件可以令人信服地重新合成:

http://mtg.upf.edu/files/projectsweb/sms-piano-original.wav

http://mtg.upf.edu/files/projectsweb/sms-piano-deterministic.wav

从信号中减去正弦波,并保留了噪声/随机部分。

http://mtg.upf.edu/files/projectsweb/sms-piano-stochastic.wav

通过将噪声通过一些噪声整形滤波器来合成随机部分。其他一些人将其扩展为一个正弦+噪声+瞬态模型,该模型有助于在时间扩展中保留瞬态随机特征。

https://ccrma.stanford.edu/~jos/sasp/Sines_Noise_Modeling.html

http://mtg.upf.edu/technologies/sms

获得信号的正弦参数后,可以通过查找谐波比率和按开始分组等来分离重叠音符的正弦。部分跟踪会在Google学术搜索中产生很多结果。

http://recherche.ircam.fr/equipes/analyse-synthese/lagrange/research/papers/lagrangeIcassp05.pdf

http://dream.cs.bath.ac.uk/software/sndan/mqan.html

隐藏的马尔可夫模型多项式Macaulay-Quatieri是其中的一些方法。我为将随机剩余的钱分成两个笔记而感到困惑。我不知道Melodyne如何解决这个问题。


5

melodyne中使用的方法需要2个独立的频域操作。首先,和弦转录技术用于将和弦音频的频率分量(来自标准频率变换)分组为音符激活。换句话说,根据最可能的音符激活对谐波子集进行分组。有关参考和数学模型,请参阅我在此论坛上对“逆和弦和弦识别”的回复。

第二种操作是对上面提取的谐波子集进行频域音调偏移。我不确定,但是我几乎可以保证Melodyne使用相位声码器方法来实现这一目标。您也可以使用此技术进行时间拉伸。我们在Riffstation中使用了与这些技术类似的技术,并且效果很好。


3

一种可能是使用统计模式匹配方法进行分析/重新合成。如果您知道或可以合理地猜测所涉及乐器的混合,并且具有所有预期音符的乐器声音模板(包括初始瞬变,频谱和频谱演变等),则可以尝试对大量理智的和弦进行统计匹配使用模板声音模式的组合来估计最可能的复音组合。这很可能是对全局极小值的大量计算密集型搜索,其中各种类似于“ AI”的搜索技术可能会有用。然后,您可以采用各种和弦概率,然后使用决策理论及时选择最可能的复音序列。

然后记下估计的音符,并以您选择的键音高和持续时间重新合成它们。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.