更高的采样率有什么数学优势吗?


18

鉴于大多数人无论如何都听不到20kHz以上的太多频率,因此我从未理解使用48kHz以上采样率的确切论点。在48kHz时,我知道构造一个带宽稍高的低通滤波器来消除混叠会更容易,但是我不明白为什么有人会想以96kHz进行记录。

对于严格数字化的项目,即使用纯数字合成并且不记录任何将要从模拟->数字转换的材料,使用高于44.1kHz的采样率是否有优势?

对于其他所有内容,使用96kHz是否有任何好处?以后再应用某些特定类型的DSP操作是否有好处?还是对耳朵纯粹是安慰剂作用?

注意:这里还有其他问题,询问用于各种类型的录制项目的采样率,但是出于任何数学或与DSP相关的原因我在这里要求提供真实的事实,以支持使用更高的采样率。

Answers:


19

出于两个重要原因,我总是尽可能使用双倍采样率。

第一个原因:使用模拟声源时,要消除防成像滤波器的特性。什么是防成像滤镜?

假设我以44100 Hz的频率录制。
如果我记录的正弦波小于10 KHz,则在图形中绘制样本值时可以清楚地看到正弦波。
如果我以22,5KHz的频率对0dB FS的正弦波进行采样,则采样会交替读取1和-1。

现在,这就是问题所在。如果我以30 KHz频率记录0dB FS的正弦波并绘制样本,则每个样本占用的正弦周期超过一半,并且-如果您要回放样本-它将返回11KHz正弦波。(如果您不相信我,只需做一个简单的绘图即可。)这种行为称为“成像效果”。

这意味着在对信号进行采样之前,我们必须确保没有频率出现在所谓的“奈奎斯特频率”(采样率的一半)以上。当使用提供已采样声音的数字声源时,这没什么大不了的,因为有时可以对它们进行编程以使其永远不会产生高于采样率一半的信号,或者可以使用线性相位将所有内容过滤掉砖墙过滤器,对其余部分无效。

但是,如果您要对来自模拟源的信号进行采样,则在对信号进行采样之前会进行此滤波。过滤模拟声音的唯一方法是使用电子电路。而且由于滤波器应该具有非常陡峭的曲线,因此即使滤波器不是专门为它设计的,它也会影响可听范围内的频率。现在,A / D转换器中有很多不错的滤波器,因此问题很小,但是与使用96KHz相比,当您在几天内使用44.1 KHz音频工作时,听起来会比较烦人。当您将96降采样回44.1时将要使用的滤波器当然是数字滤波器,并且质量可能更好。而且,它仅在您完成所有工作后才应用,因此不会打扰您。

第二个原因:摆脱了抖动信号的特性。

当您以24位分辨率录制并且计划将主设备设置为16位时,您将需要一个抖动信号来掩盖舍入误差。现在,噪声并不是录制中的漂亮东西,而宽带噪声最适合掩盖舍入误差,但噪声整形可以是对抖动信号应用的一项重大改进,以减少干扰。现在,如果使用96KHz进行录制,则可以将大多数抖动信号噪声化为高于24KHz的频率,因此没有人会听到它们。抖动的噪声最终在录制的最后被滤除,此刻将项目降采样回44.1 KHz。

因此,最重要的是:在录制模拟内容时是否有用:

  • 当然是。当使用适当的噪声整形功能时,抗成像滤波器的干扰较小,而抖动信号的干扰较小。

当使用softsynth附带的数字内容时,它有用吗?

  • 是的,如果您打算使用24位并将其精简到16位,它仍然很有用。您可以通过对抖动信号进行噪声整形来获得大量收益。

“因为有时可以对它们进行编程,以使其永远不会产生超过采样率一半的信号” ,但是绝对可以“或者,他们可以使用对其他信号没有影响的线性相位砖墙滤波器来滤除所有内容”, 我不是确保有可能。为了从数字生成的波中滤除超声波,首先需要以较高的采样频率生成超声波(这仍然会混叠,但在可听频带中不那么多)。您不能过滤已经混叠的频率。
endolith 2013年

3
“现在,如果使用96KHz进行录制,则可以将大多数抖动信号的噪声整形为高于24KHz的频率,因此没有人会听到它们。抖动噪声在录制结束时最终被滤除,在您进行下采样时您的项目恢复到44.1 KHz。” 我也不认为这是对的。如果您滤除所有抖动,那么您的输出不再具有抖动了吗?它将回到具有量化失真的地方吗?
endolith 2013年

关于第一条评论:您是完全正确的。我想说的是,当您使用数字效果时,您可以期望它的输出的频率范围得到照顾。这样说,如果输出首先是混叠,则提高您自己的采样频率不会改变这一点。至于您的第二条评论:有趣;这完全取决于前降采样所使用的滤波器。如果将噪声成像回去,显然可以掩盖量化噪声,但听起来不会完全一样。我想我会在最后的奈奎斯特频率附近塑造我的声音。
Pellmeister

1
某些类型的操作可能会将24KHz以上的频率分量转换为20KHz以下的频率分量,反之亦然。如果在第一个操作与最后一个操作之间没有将音频保持在较高的采样率,则中间阶段的信息丢失可能会对最终输出产生听觉上的影响。
超级猫

12

对于严格数字化的项目,即使用纯数字合成并且不记录任何将要从模拟->数字转换的材料,使用高于44.1kHz的采样率是否有优势?

是。一些例子:

创建您想要的频率

数字合成的混叠

许多方波/锯齿波/三角波发生器都是天真地编写的,因为它们会产生无限数量的谐波,这些谐波是混叠的并且听起来很糟糕。(..., +1, +1, +1, +1, −1, −1, −1, −1, ...正确的方波,并且混叠谐波会产生滑音期间背景无线电调谐的声音。)

如果采样频率较高,则该效果会降低,因为混叠频率离音频频段更远。

当然,如果生成器以完全消除混叠的方式编写会更好,但是您不能始终以用户身份进行控制。即使写得很好,通常也是折衷方案,具有“减少的”混叠现象,没有完全限制带宽,因此更高的采样率仍然有帮助。

消除数字失真

同样,当您使用任何类型的数字非线性失真时,它都会产生无限数量的谐波或互调产物。实际上,将在奈奎斯特频率之上产生的噪声混叠回到可听范围内。

尽管从理论上讲,可以以带限方式进行失真,但对于插件编码人员而言,实际执行此操作并不常见。我测试过的每个吉他失真插件都有混叠,甚至可以在96 kHz的频率下进行处理。

我不确定这实际上有多少问题。许多事情会导致少量失真,例如压缩器或音量衰减,但是该数量已经可以忽略不计,因此,混叠的数量甚至可以忽略不计。对于严重失真,混叠频率也可能不明显,因为它们被掩埋在噪声中。无论如何,更高的采样率将有助于最小化任何有害影响。

缺乏频率的你做的

另一个可能的担忧是,即使您无法在录音中直接听到合成的超声波频率,在以后的处理中也可能会变得有用:

随时间变化的频移

如果您对某个波重新采样以减慢其速度(例如在Soundfont播放器中),这些超声波频率将变为可听频率。如果已将它们过滤掉以避免在较低的采样率下出现混叠,则减慢的声音将丢失高端。

失真/调制

如前所述,失真将在原始记录中频率的总和和差位置处创建新的互调频率。这次,我们担心由于超声波频率的失真/调制(与混叠无关)会产生理想的可听频率。如果失真之前没有在记录中记录这些超声波频率,则输出将丢失它们产生的可听频率,并且不会精确模拟等效的模拟效果。

同样,我不确定这是否实际上是一个问题,但这至少是合理的,包括超声在内的更高采样率会改善这一问题。

通常,以较高的采样率工作会提供“余量”,以防止可能无法正确实现的效果和内容问题。像影印副本一样,每份副本的质量越好,最终产品的降解就越少。

播放无用

这并不是说较高的采样率是播放完成的混音的一个好主意。他们不是。如上所述,超声波失真会产生可听见的声音,而扬声器是音频链中线性度最低的东西,因此您要从最终混音中消除任何超声波,以防止扬声器造成失真。

更高的音乐播放采样率没有任何好处。它们仅应在记录和处理阶段使用。请参阅24/192音乐下载...以及为何没有意义


1
+1表示不正确的方波发生器。同样,对于锯齿波和三角波也可以这样说……
显示名称

高达96KHz或更高速率的数字上采样通常有助于回放,因为音频输出可以轻松保持22Khz至48KHz范围内的任何有害内容。构建一个模拟滤波器杀死48Khz左右的任何东西而不会损害低于22Khz的东西比构建一个滤波器直到杀死26Khz以上的任何东西而不损害22Khz的东西要容易得多。如果将音频转换为96Khz进行播放,并且将音频转换为96Khz,则最好将其保持在96Khz,而不是对其进行下变频和上变频。
超级猫

@supercat这是用于录制,而不是播放。制作超陡峭的数字滤波器可以很容易地在播放之前去除20 kHz以上的所有内容。在采样之前制作一个模拟滤波器来去除超声波是困难/昂贵的,这就是为什么ADC使用更高采样率(MHz)的过采样,然后使用数字滤波器去除超声波并转换回正常速率(如96 kHz)的原因。
endolith '16

5

从理论上(和实际上)上有足够的上升空间是采样率高于人类听力极限两倍的理论上的合理理由。

通过与图像编辑进行比较,可以很容易地看出其原因-如果您只说了800x600 px的图像,并且整体拍摄了高对比度的砖墙,鱼网,条纹纺织品或其他精细间隔的高对比度纹理,则只能旋转45°的倍数,而不会引起波纹效果和细节模糊。对于音频,编辑时发生的失真具有不同的术语,但适用相同的Nyquist-Shannon采样定理原理。对于采样声音的频率成分高于采样率一半(称为奈奎斯特频率)的情况,混叠是比“成像效果”更常用的术语。

在实践中,就像佩尔(Pelle)十凯特(Cate)所解释的那样,砖墙低通滤波器是无法实现的,但截止处总是存在一定的梯度(斜率)。

以更高的采样率进行记录的另一个很好的理由是获得更精确的立体声图像,因为人类的听力在很大程度上取决于耳朵之间的小时间差(大约5-20毫秒,实际上是相位差)来定位声源。头部“阴影”等方面也起作用。

音频CD采样率为44100 Hz,每个采样代表22.6微秒,例如882 Hz频率的一个周期有50个采样。另外,相当长的20 ms延迟会持续50个采样。因此,在该中频处只有25个样本意味着180°相位抵消。

因此,44,1 KHz采样率就足够了,但实际上没有太大的编辑空间。

应该记住的另一件事是使用抖动(就像在图像编辑中一样)以防止量化噪声。接下来,您会问,我应该使用24位量化而不是16位...?


是否已经表明,即使我们无法有意识地听到超声波,超声波仍然会对我们的立体声感知产生影响?
endlith 2013年

1
不,耳间时间差对立体声图像的影响对低频(1500 Hz以下)的影响最大,在这种情况下,耳朵的距离短于波长,因此存在相位差。在较高的频率上,声级的差异对声音的定位有更大的影响。参见:en.wikipedia.org/wiki/Interaural_time_difference#Duplex_theory
peterhil

4

使用较高采样率的另一个很好的理由是要解决插件实现的缺陷。许多插件编写者没有正确考虑非线性信号操作的带宽扩展效果,因此,在离开包装盒之前,您会获得混叠效果。

例如,压缩器基本上是一个压控放大器,它将一个信号(音频信号)与另一个信号(增益)相乘。2个信号的乘法也称为环调制或外差;它具有产生两个输入的和信号和差信号的作用。如果将15 kHz正弦乘以15 kHz正弦,则会得到具有5 kHz和25 kHz分量的输出信号。如果您的压缩器增益很快受到攻击,并且输入信号具有较宽的带宽,则“和”分量信号可能会在瞬态基础上轻易超过Fs / 2极限,从而导致输出中出现杂散的低频杂波信号。

真正的解决方法是使用内部过采样来实现该插件,但是如果您不能理解,那么最好的办法就是以尽可能高的Fs运行系统。平流层中没有任何实际的音频内容,但是可以防止某些插件越过边界。


2

就其价值而言,至少可以满足音频世界需求的数学原理通常由Nyquist-Shannon采样定理(有时也称为Nyquist定理)来描述,在基本语言中,该定理仅表示要完全重现一个最大频率为n Hz的波形,每秒需要2n个采样。


1
是的,但是Nyquist-Shannon使用砖墙过滤器,这在物理上是不可能的。
endlith 2013年

1

当记录多条轨道时,我相信位深度比采样率更重要。

因此,例如,24位将比16位更好。这与您的音轨混合在一起的方式以及当位数不足时称为“舍入错误”的方式有关。

现在,大多数硬件和软件都可以轻松支持96k和24bit,因此没有真正的需求。

也就是说,您显然可以使用旧的16 / 44.1设备进行高质量的录制。

与其说是设备,不如说是人才。


2
尽管这不是“不正确的”,但使用24位会带来一个缺点,如果您想返回16位,则必须使用抖动。如果在使用噪声整形时将抖动噪声应用于96 KHz信号,则可以大大降低抖动噪声。(有关详细信息,请参见其他答案)
The Pellmeister 2010年

1
所有专业音频软件在混音期间都内部使用32或64位浮点,而不管记录期间使用的位深度如何。
大约

3
@PelletenCate如果您使用16位,则您已经搞砸了,因为在每个非平凡的编辑步骤中都会添加量化噪声。暗示使用24位或更多位会带来这种缺陷是非常错误的。
显示名称

我为此+1。我不应该将其描述为缺点,因为事实并非如此。但是,我应该说,在44/16混音中既可以听到量化噪声,也可以听到不整形的抖动噪声。我的观点是,通过切换到24位,您将有机会将一个问题(量化噪声)更改为另一个问题(抖动噪声),而可以通过以更高的采样率进行记录来有效地减少该问题。
Pellmeister 2013年

0

“ ...由于任何数学或与DSP相关的原因而产生的真实事实,支持使用更高的采样率。”

所谓的真实事实来自真正的音频工程师,有可能在这里找到多个,但在Internet上搜索实际工程师撰写的文章的速度可能会更快。在这里问意味着您要为我们安顿下来,我不是音频工程师,但可以使用搜索工具。

需要考虑的是本底噪声。其他答案提到了如何添加噪声,并提到了抖动和量化误差,但是最接近提到该底限的其他答案就是这个花絮:“ ...混叠频率也可能不明显,因为它们被掩埋在噪声中了。 ”。

如果您是在建筑工地,火车站或造船厂录制,那么如果您不追求完美,则可以便宜到44.1录制-否则就像视频是4:2:2而不是4:2:0一样,音频更多位,但不超过32位(对于您而言,在软件中内部,超过32位),采样率更高,但不超过96kHz(对于您,内部使用以更高采样率运行的软件和硬件)。

尝试这些文章,以使您开始搜索工程师的建议-您将不会访问法律建议。对于关键信息进行stackexchange,因此学会学习,最终是您关心多少,受众关心多少,技能水平以及承受能力。

为什么是88.2- http://www.soundonsound.com/sound-advice/q-why-882khz-best-sample-rate-recording

为什么选择24/96?- http://www.premiersoundfactory.com/modules/pico/content0035.html

Internet上有很多地方,包括免费的在线课程。

简短的版本是有原因的,这是一个很难的事实-不要一开始就犯错误,希望以后再消除它们,您不希望有人在尝试记录时讲话,或者让陌生人在镜头前奔跑-但是有些视频同时具有很多优点。

要记住的技巧是大声记录,而不会以您可以承受的高费率(时间,存储空间,技能,金钱和输入类型(IE:建筑工地),听众)剪辑,并通过降噪功能消除最安静的细微差别以消除噪音。糟糕的量化和抖动噪声(在我们提到它之前您可能从未注意到过)。

[旨在提供一个没有事实错误的简单答案,并且无意冒犯音频爱好者或专业音频工程师]

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.