如果人类只能听到高达20 kHz频率的声音,为什么要以44.1 kHz采样音乐音频?


60

我在某些地方读到,音乐大部分是在44.1 kHz下采样的,而我们最多只能听到20 kHz。为什么?


1
年轻人可以听到较高的频率。其他记录技术使用的频率高达48 kHz。
托尔比约恩Ravn的安徒生

15
奈奎斯特定理:每个摆动需要两个样本来说明波的频率。
mathreadler's

因为处理器速度更快,内存价格便宜,但是好的模拟滤波器仍然很棘手,甚至更高的采样率也很有意义(96或192 kHz)
Nick T

2
@ThorbjørnRavnAndersen我认为48 kHz很常见,因为它可以分为视频制作中使用的24、25和30 fps。24并没有均匀地进入44100。这就是Wikipedia提到的。
尼克T

4
@SohamDe这是因为,如果您以正好20 kHz的频率采样20 kHz音频信号,您将什么也听不到。想象一下,正弦波每1 / 20,000秒出现一次峰值。好吧,如果您以完全相同的速率对其进行采样,那么您将仅对峰(或节点,或碰巧对其进行采样的任何级别)进行采样。因此,当您从数字信号中重新创建信号时,您得到的只是一条扁平线。这个概念称为混叠,它使您必须至少采样想要听到的最大频率的两倍。44 100赫兹是方便的,因为是整除2的幂
MichaelK

Answers:


89
  1. 实际信号的采样率必须大于信号带宽的两倍。音频实际上从0 Hz开始,因此以44.1 kHz记录的音频中出现的最高频率为22.05 kHz(22.05 kHz带宽)。
  2. 完美的砖墙滤波器在数学上是不可能的,因此我们不能完全切断20 kHz以上的频率。额外的2 kHz用于滤波器的滚降;这是一个“摆动室”,由于过滤器的不完善,音频可能会混叠,但我们听不到。
  3. 44.1 kHz的特定值与当时使用的PAL和NTSC视频帧速率兼容。

请注意,基本原理已在许多地方发布:Wikipedia:为什么选择44.1 kHz?


9
嗨,我真的同意您的回答,但是“ ..两倍最高频率”一词很快就吸引了初学者,因为Nyquist是关于带宽的,而不是最高频率。我继续进行,并对您的答案做了些微修改。请检查是否还可以。
MarcusMüller17年

2
@Ruslan:维基百科对此很好。
jojek

2
@BrianDrummond可以编辑吗?
endolith

3
@MarcusMüller被“ Nyqvist是允许的最高频率”咬伤的初学者,无论如何都将通过锯齿伪影而被咬伤……之后,他们还将了解如何将带宽任何频率范围解调为到。Δf0Δf=fs/2
大约

1
如果一个人分开听,可能无法分辨出有10个谐波的19,999.9Hz声音与有9个谐波的20,000.1Hz声音之间的区别,但这并不意味着听不到两者之间的过渡。拥有一个更渐进的截止值的过滤器可以避免此类问题。
超级猫

72

Sony选择了44,100,因为它是前四个质数的平方的乘积。这使得它可以被许多其他整数整除,这在数字采样中很有用。

44100 = 2^2 * 3^2 * 5^2 * 7^2

您已经注意到,44100也刚好超过人类听力极限的两倍。的正上方部分给出的过滤器的一些余地,因此使得它们不太昂贵的(较少芯片拒绝)。

正如罗素(Russell)在评论中指出的那样,在选择采样率时,可被许多其他整数整除的方面立即受益。早期的数字音频记录在现有的模拟视频记录媒体上,根据地区的不同,该媒体支持NTSCPAL视频规范。NTSC和PAL的“每场行数”和“每秒场数”速率不同,其LCM(以及每行样本数)为44100


12
选择的不仅仅是获得许多主要因素,还在于充分利用NTSC和PAL视频记录设备来存储数字母带。en.wikipedia.org/wiki/44,100_Hz#Recording_on_video_equipment
拉塞尔Borogove

3
@RussellBorogove:谢谢。根据Wiki链接,44100是NTSC和PAL视频功能的速率的采样率的LCM。这是具有许多因素的数字的直接结果,我相信您认为这匹马在此规格上处于领先地位是正确的。
dotancohen

1
可被许多数字整除,但不能被8整除:)
Bogdan Alexandru

(维基百科表示,从40.5到46.8 kHz的各种速率都可以满足这些条件,并且选择44.1 kHz为抗锯齿滤波器提供过渡带)
Endolith

2
@BogdanAlexandru也不能被1 ms USB帧整除:D
endolith

13

奈奎斯特速率高于您要捕获而没有歧义(例如混叠)的基带信号带宽限制的两倍。

以低于20kHz两倍的速率进行采样,由于混叠,您无法仅通过查看采样就分辨出非常高和非常低的频率之间的差异。

补充:请注意,任何有限长度的信号在频域中都有无限的支持,因此没有严格的带宽限制。这是另一个原因采样任何非无限音频源比特以上的最高频谱两次(在基带信号)是必需的,以避免混叠显著(超出有限滤波器过渡滚降的只是原因)。


嗨,我真的同意您的回答,但是“ ..两倍最高频率”一词很快就吸引了初学者,因为Nyquist是关于带宽的,而不是最高频率。我继续进行,并对您的答案做了些微修改。请检查是否还可以。
MarcusMüller17年

6
@MarcusMüller,因为要开始采样的“初学者”是从采样基带信号而不是通带信号开始的,所以它实际上关于最高频率(有时称为“ bandlimit”)而不是带宽(关于单面或双面还有一个额外的歧义)带宽)。
罗伯特·布里斯托

@ robertbristow-johnson并没有看到这种歧义。嗯 我喜欢带宽限制方法!
MarcusMüller17年

3
Wikipedia文章中,我们将其称为“ ”,尽管Shannon说足够,但他假设能量有限,因此没有正弦曲线(具有无限能量并且还可以将狄拉克三角洲置于)。如果您允许在频率处使用正弦曲线,那么它通常是。Bfs2B±BBfs>2B
罗伯特·布里斯托

10

基本上,两倍带宽是信号采样的常见要求,因此,最小 kHz。然后,多一点用于应对不完美的滤波和量化。详细信息如下。2×20=40

理论上您所需要的不是实践中所需要的。这是引号(归因于许多):

在理论上,理论与实践之间没有区别。实际上有。

我不是音频专家,但是我已经过高质量音频采样/压缩人员的培训。我的知识可能很生锈,请谨慎使用。

首先,标准采样理论在以下假设下起作用:线性系统和时间不变性。然后,从理论上讲,连续的带宽受限现象是已知的,可能会在带宽的大约两倍(或基带信号最大频率的两倍)下采样而不会造成损失。“奈奎斯特速率”通常定义为:

信号不会被引入误差的最小采样率

这是“采样定理”的分析部分。“可以”很重要。这里有一个合成部分:连续信号可以类似地使用基数正弦信号“ 重建”。这不是唯一的技术,并且没有考虑低通预滤波,非线性(例如量化,饱和度)和其他随时间变化的因素。

听觉不是一个简单的话题。人们听到的声音频率范围是20 Hz至20,000 Hz。但是,赫兹的这种精确界限并不是所有人的自然特征。随着年龄的增长,对高频的敏感性逐渐丧失。另一方面:

在理想的实验室条件下,尽管成年人的阈值在15 kHz时会急剧增加,但人类可以听到低至12 Hz且高达28 kHz的声音

听觉不是线性的:听觉和痛苦阈值都有。它不是时不变的。在时间和频率上都有掩盖效果。

如果20 Hz到20,000 Hz的频带是一个常见范围,并且从理论上讲40,000 Hz就足够了,那么需要一点额外的费用来应对额外的失真。一条经验法则说,可以再增加10%(信号带宽),而44,100 Hz就可以了。它可以追溯到1970年代后期。为什么不使用44,000 Hz?主要是由于CD的普及所设定的标准,其技术一如既往地基于折衷。另外,44,100是前四个质数的平方的乘积(),因此系数较小,有利于计算(如FFT)。2.2×22×32×52×72

因此,从到(以及倍数),我们在安全性,量化,可用性,计算和标准方面达到了平衡。2×2044.1

还存在其他选择:例如,DAT格式以48 kHz采样发布,最初转换困难。我应该使用哪种采样率和位深来讨论有关量化(或位深)的96 kHz 这是一个有争议的主题,请参见24位48kHz与24位96kHz。例如,您可以检查Audacity采样率


2
1.问题的答案是奈奎斯特定理规定> 40kHz,而不是> 20kHz。2.在低端,人的听力和CD格式都不限于20Hz。任何足够大的管风琴都可以产生16Hz音调,而CD可以轻松再现它。一些器官的频率下降到8Hz,开始被视为个体振动,但CD仍可以复制。
user207421'3

我同意您的评论,但“命令”除外(这是“如果”的条件)。您能指出我偏离的地方吗?
洛朗·杜瓦尔

1
我对@LaurentDuval的答案只有一个补充。语音,音乐和声音通常是非平稳信号。尽管这些是有效的带宽限制,但是我们还不知道人耳如何将连续的时间信号转换为神经发声,从而促进了我们对声音的感知。人们通常认为有些人“金耳朵”,可以区分44.1 kHz和96 kHz的录音。另外,我还没有证实,似乎更高的采样率有利于感知其他线索,例如双耳录音中的定位。
Neeks,2017年

0

为什么精确到44.1 kHz,已经回答了-但要着重于您的问题与人类感知极限有关的方面,原因很简单。

时间分辨率必须足够精细,以能够生成所有可能的波形,直至可感知的极限。根据采样定理,分辨率必须使得采样频率至少是该频率的两倍。直观地讲,在最高频率下,您至少需要2个点来表示信号的最大和最小-给出此Ascii-art方波:

_   _
 |_| |_

-1

为了忠实地再现信号,采样率越快越好。之所以选择〜40 kHz,是因为这是一个低采样率,大多数人无法分辨出(重建时)的差异。引入音频采样后,内存和存储很昂贵,而且不可能廉价地获得更高的采样率。

即使每个听觉的上限都达到奈奎斯特采样信号的标准,即使每个听觉的上限达到两倍,其重建也非常差,一张简单的图表描绘了一个正弦波,每个周期有两个样本,这将向您显示每个周期有两个样本是多么糟糕在再现波形。您可以从字面上将正弦波转换为方波。20 kHz的好处是没人知道。我敢打赌,狗可以。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.