我在某些地方读到,音乐大部分是在44.1 kHz下采样的,而我们最多只能听到20 kHz。为什么?
我在某些地方读到,音乐大部分是在44.1 kHz下采样的,而我们最多只能听到20 kHz。为什么?
Answers:
请注意,基本原理已在许多地方发布:Wikipedia:为什么选择44.1 kHz?
Sony选择了44,100,因为它是前四个质数的平方的乘积。这使得它可以被许多其他整数整除,这在数字采样中很有用。
44100 = 2^2 * 3^2 * 5^2 * 7^2
您已经注意到,44100也刚好超过人类听力极限的两倍。的正上方部分给出的过滤器的一些余地,因此使得它们不太昂贵的(较少芯片拒绝)。
正如罗素(Russell)在评论中指出的那样,在选择采样率时,可被许多其他整数整除的方面立即受益。早期的数字音频记录在现有的模拟视频记录媒体上,根据地区的不同,该媒体支持NTSC或PAL视频规范。NTSC和PAL的“每场行数”和“每秒场数”速率不同,其LCM(以及每行样本数)为44100。
奈奎斯特速率高于您要捕获而没有歧义(例如混叠)的基带信号带宽限制的两倍。
以低于20kHz两倍的速率进行采样,由于混叠,您无法仅通过查看采样就分辨出非常高和非常低的频率之间的差异。
补充:请注意,任何有限长度的信号在频域中都有无限的支持,因此没有严格的带宽限制。这是另一个原因采样任何非无限音频源比特以上的最高频谱两次(在基带信号)是必需的,以避免混叠显著(超出有限滤波器过渡滚降的只是原因)。
基本上,两倍带宽是信号采样的常见要求,因此,最小 kHz。然后,多一点用于应对不完美的滤波和量化。详细信息如下。
理论上您所需要的不是实践中所需要的。这是引号(归因于许多):
在理论上,理论与实践之间没有区别。实际上有。
我不是音频专家,但是我已经过高质量音频采样/压缩人员的培训。我的知识可能很生锈,请谨慎使用。
首先,标准采样理论在以下假设下起作用:线性系统和时间不变性。然后,从理论上讲,连续的带宽受限现象是已知的,可能会在带宽的大约两倍(或基带信号最大频率的两倍)下采样而不会造成损失。“奈奎斯特速率”通常定义为:
信号不会被引入误差的最小采样率
这是“采样定理”的分析部分。“可以”很重要。这里有一个合成部分:连续信号可以类似地使用基数正弦信号“ 重建”。这不是唯一的技术,并且没有考虑低通预滤波,非线性(例如量化,饱和度)和其他随时间变化的因素。
听觉不是一个简单的话题。人们听到的声音频率范围是20 Hz至20,000 Hz。但是,赫兹的这种精确界限并不是所有人的自然特征。随着年龄的增长,对高频的敏感性逐渐丧失。另一方面:
在理想的实验室条件下,尽管成年人的阈值在15 kHz时会急剧增加,但人类可以听到低至12 Hz且高达28 kHz的声音
听觉不是线性的:听觉和痛苦阈值都有。它不是时不变的。在时间和频率上都有掩盖效果。
如果20 Hz到20,000 Hz的频带是一个常见范围,并且从理论上讲40,000 Hz就足够了,那么需要一点额外的费用来应对额外的失真。一条经验法则说,可以再增加10%(信号带宽),而44,100 Hz就可以了。它可以追溯到1970年代后期。为什么不使用44,000 Hz?主要是由于CD的普及所设定的标准,其技术一如既往地基于折衷。另外,44,100是前四个质数的平方的乘积(),因此系数较小,有利于计算(如FFT)。
因此,从到(以及倍数),我们在安全性,量化,可用性,计算和标准方面达到了平衡。
还存在其他选择:例如,DAT格式以48 kHz采样发布,最初转换困难。我应该使用哪种采样率和位深来讨论有关量化(或位深)的96 kHz ? 这是一个有争议的主题,请参见24位48kHz与24位96kHz。例如,您可以检查Audacity采样率。