为什么有源耳机没有均衡到平坦的频率响应?


11

某些耳机处于“活动状态”,杯子中内置有放大器,并且需要电源(通常为AAA电池)。

然后,我看到许多发烧友将频率响应作为衡量耳机质量的指标,他们断然拒绝了大多数“活跃”的耳机,例如Dre Beats Studio。

但是,对于某些运放而言,对输入信号进行预放大均衡似乎相当容易,这样它就可以完全校正驱动器的频率响应,从而在需要时产生非常平坦的频率响应(或者不需要,例如低音)。提升或削减)。

这样做有什么特别困难吗?

频率响应图http://graphs.headphone.com/graphCompare.php?graphType=0&graphID[]=1383&graphID[]=193&graphID[]=1263&graphID[]=853&scale=20

例如,对于Dre Beats Studio(蓝线),也许EQ电路可以提供+ 3db @ 750Hz,-5dB @ 1100Hz,+ 6.5dB @ 1300Hz,+ 5dB @ 1550Hz,-4.5dB @ 8.5kHz和+ 14dB @ 15kHz,调整斜率以使频率响应最佳地对准500Hz至20kHz的0db。

Answers:


20

当您将某些东西放到耳朵上以再现标准立体声录音时,您并不需要平坦的频率响应,因为当声音源贴着您的耳朵时,通常远方声源相关的与头部相关的传递函数看起来会非常不同。

让我为您引用一本书中的几段内容

在电声传输链的所有组件中,耳机是最具争议的。真正的高保真度不仅涉及音色,而且还涉及空间定位,这是由于众所周知的头戴式耳机本地化而与扬声器立体声相关的。然而,具有虚拟头部的双耳录音是最有希望实现逼真的高保真度的录音,也有望用于耳机的再现。即使在鼎盛时期,他们在常规录制和广播中也找不到位置。当时的原因是不可靠的额叶定位,与扬声器再现的不兼容以及它们不美观的趋势。由于数字信号处理(DSP)可以使用与双耳头相关的传递函数HRTF进行例行滤波,因此不再需要虚拟头。

耳机的最常见应用仍然是为耳机提供最初用于扬声器的立体声信号。这就提出了理想频率响应的问题。对于传输链中的其他设备(图14.1),例如麦克风,放大器和扬声器,平坦的响应通常是设计目标,在特殊情况下很容易确定偏离此响应。需要扬声器以典型的1 m距离产生平坦的SPL响应。此时的自由场SPL会在正在录制的音乐会的声场中的麦克风位置复制SPL。收听LS前面的录音时,收听者的头部会通过衍射使SPL线性失真。他的耳朵信号不再显示平坦的反应。然而,这不需要担心扬声器制造商,因为如果在现场表演中有听众在场,这也会发生。另一方面,耳机制造商直接与产生这些耳朵信号有关。标准中规定的要求导致了自由场校准的耳机的产生,该耳机的频率响应可复制前置扬声器的耳部信号,以及漫射场校准,其目的是在扬声器的耳中复制SPL。聆听来自各个方向的声音的听众。假定许多扬声器具有不相干的源,每个源均具有平坦的电压响应。耳机制造商直接与产生这些耳朵信号有关。标准中规定的要求导致了自由场校准的耳机的产生,该耳机的频率响应可复制前置扬声器的耳部信号,以及漫射场校准,其目的是在扬声器的耳中复制SPL。聆听来自各个方向的声音的听众。假定许多扬声器具有不相干的源,每个源均具有平坦的电压响应。耳机制造商直接与产生这些耳朵信号有关。标准中规定的要求导致了自由场校准的耳机的产生,该耳机的频率响应可复制前置扬声器的耳部信号,以及漫射场校准,其目的是在扬声器的耳中复制SPL。聆听来自各个方向的声音的听众。假定许多扬声器具有不相干的源,每个源均具有平坦的电压响应。其中的目的是在听众的耳朵中复制SPL,以便从各个方向撞击声音。假定许多扬声器具有不相干的源,每个源均具有平坦的电压响应。其中的目的是在听众的耳朵中复制SPL,以便从各个方向撞击声音。假定许多扬声器具有不相干的源,每个源均具有平坦的电压响应。

在此处输入图片说明

(a)自由场响应:为了更好地参考,各种国际标准和其他标准对高保真耳机设定了以下要求:恒定电压单声道信号输入的频率响应和感知响度近似为:消声条件下位于听众面前的扁平响应扬声器的示意图。耳机在给定频率(1000 Hz选择为0 dB参考)下的自由场(FF)传递函数等于以dB为单位的量,耳机信号将被放大以提供相同的响度。平均需要最少数量的科目(通常是八个)。daccess-ods.un.org daccess-ods.un.org图14.76显示了一个典型的公差范围。

在此处输入图片说明

(b)扩散场响应:在1980年代开始了一项运动,用另一项标准取代了自由场标准要求,其中以扩散场(DF)为参考。事实证明,它已成为标准,但没有取代旧标准。这两个现在并排站立。对FF参考的不满意主要是由2 kHz峰值的幅度引起的。它被认为是图像着色的原因,因为即使对于单声道信号也无法实现正面定位。泰勒的关联模型描述了听力机制感知着色的方式(图14.62)。图14.77显示了耳朵对弥散场和自由场的响应的比较。[...]由于主观听力测试很重要,到目前为止,FF耳机更多的是例外。可以提供不同的频率响应,以迎合个人喜好,每个制造商都有自己的耳机理念,频率响应范围从平坦到自由场,甚至更高。

在此处输入图片说明

这个HRTF差异问题也是为什么(在耳机中)倾斜驱动器对足够多的人听起来更好,而Sennheiser这样的公司也是如此。倾斜的驱动器并不能完全使耳机听起来像扬声器。

在工厂或实验室中,在测量频率响应时会使用人工耳。下面的是实验室级别的一个;工厂级别的工厂要简单一些。

在此处输入图片说明

我还发现了该HeadRoom网站使用的方法

我们如何测试频率响应:为了执行此测试,我们以相同的电压和不断增加的频率以200种音调驱动耳机。然后,我们通过高度专业(且价格昂贵!)的Head Acoustics麦克风的耳朵测量每个频率下的输出。之后,我们应用音频校正曲线,该曲线消除了与头部有关的传递函数,并准确地产生了要显示的数据。

使用的麦克风可能就是这个。看来他们实际上是通过软件反转了虚拟头/耳的传递函数,因为他们之前就说过“理论上,该图应该是一条0dB的平线。” ...但是我不确定是做什么的……因为在此之后,他们说“在40Hz至500Hz之间,“自然声音”耳机的低音应稍高一些(约3或4 dB)。” “耳机还需要从高处滚下来,以补偿驾驶员离耳朵那么近的位置;从1kHz逐渐倾斜的扁平线在20kHz处向下倾斜大约8-10dB是正确的。” 关于他们先前关于倒置/删除HRTF的声明,这对我来说不是很合算。

查看人们从制造商(Sennheiser)获得的该HeadRoom示例中使用的耳机型号(HD800)的一些证书,似乎HeadRoom显示的数据没有任何假定的耳机本身校正模型(这将解释为什么他们给出自己的耳机后来的解释建议,因此他们最初的“平坦”建议是一种误导性建议),而Sennheiser使用DF(扩散场)校正,因此它们的图形看上去几乎平坦。

在此处输入图片说明

在此处输入图片说明

不过,这只是一个猜测,因为测量设备的差异(和/或耳机样本之间的差异)可以很好地解释这些差异,因为它们并不那么大。


无论如何,这是一个活跃而持续的研究领域(您可能从上面引用的关于DF的最后一句话中猜到了)。一些香港研究人员做了很多这样的事情。我没有(免费)访问他们的AES论文,但可以在内部忠诚度博客20132014以及香港主要作者博客Sean Olive的链接中阅读一些相当广泛的摘要。作为捷径,这里有一些最新的免费幻灯片(2015年11月)。这是相当多的材料...我只是简要地看了一下,但是主题似乎是DF不够好。

这是他们早期演讲中的一些有趣的幻灯片。首先,HD800和更明确公开的设备的全频率响应(不截断为12KHz):

在此处输入图片说明

也许对OP最感兴趣的是,Beats的低音效果并没有那么吸引人,与耳机价格相比要贵四到六倍。

在此处输入图片说明


我不同意您的书中所说的:“然而,具有逼真高保真度的最有前途的带有虚拟头的双耳录音注定要用于耳机的再现。即使在鼎盛时期,他们也没有在常规录音中找到任何位置。广播。” 我参与的每个直播电视体育赛事都使用“全息”麦克风阵列来捕获环境声音,以用于环绕声音频混合。www.holophone.com
Dwayne Reid,

@DwayneReid:有趣。该录音耳机的最终目标是,还是用扬声器环绕5.1或7.1?也有将5.1 / 7.1缩混到耳机的技术,但是我在这里还没有涉及。
Fizz 2015年

好吧,在其主页上宣传的产品说:“是唯一专为捕获离散的7.1声道环绕声而设计的专利麦克风”,因此“在扬声器或立体声耳机上令人难以置信的逼真的3-D音频播放体验”可能使用了缩混方法(从7.1开始)。
Fizz 2015年

谢谢,这个答案确实很有帮助。我是否在正确地说一句话:耳机频率响应试图模仿由正面音频源扩散到您的脸部并进入耳道而产生的失真,而完美平坦的频率响应听起来“不自然”?
Ehryk 2015年

尚不清楚的是,如果他们应用逆变换,那么目标将再次是在整个频谱上形成一条平坦的0dB线,理论上可以通过均衡器(理想的是预先放大)插入。关于有源耳机制造商为什么不这样做以使其在头失真校正后不具有平坦的0dB曲线的任何想法,或者与Sennheiser Orpheus一起出售使用这种EQ的专用耳机放大器,但价格可能不到3万美元?那时它们似乎理想的耳机……
Ehryk 2015年

4

一个简单的答案是,一个由运放构成的,用于校正驱动器响应的平坦频率响应系统在通带中必然具有非常平坦的相位响应。这种非平坦性意味着瞬态声音的分量频率变得不均匀地延迟,导致微妙的瞬态失真,从而妨碍了正确的声音分量识别,这意味着可以分辨出更少的不同声音。

因此,这听起来很糟糕。好像所有声音都来自一个恰好位于人耳之间的模糊球。

上面答案中的HRTF问题只是其中的一部分-另一个问题是,可实现的模拟域电路只能具有因果时间响应,并且要正确地校正驱动器,就需要一个因果滤波器。

可以使用与驱动器匹配的有限冲激响应滤波器进行数字近似,但这需要很小的时间延迟,足以使电影非常不同步。

而且,这听起来仍然像是从您的内心发出的,除非也将HRTF也重新添加进去。

因此,这毕竟不是那么简单。

要创建“透明”系统,您不仅需要在人类听觉范围内平坦的通带,还需要线性相位-平坦的群延迟图-并且有一些证据表明该线性相位需要继续达到令人惊讶的高频率,从而不会丢失方向提示。

通过实验可以很容易地验证这一点:在声音文件编辑器(如Audacity或snd)中打开一些您熟悉的音乐的.wav,然后仅从一个通道中删除一个44100 Hz采样,然后重新对齐另一个通道,以便第一个现在,样本将在已编辑频道的第二个频道中发生,并进行播放。

您会听到一个非常明显的差异,即使该差异只是1/44100秒的时间延迟。

考虑一下:声音大约为340 mm / ms,因此在20 kHz时,这是一个时间误差,加上正负一个采样延迟,即50微秒。这是17毫米的声音传播,但是您可以听到与缺少的22.67微秒的区别,声音传播只有7.7毫米。

一般认为,人耳的绝对截止频率约为20 kHz,这是怎么回事?

答案是听力测试是用测试音进行的,测试音主要一次只包含一个频率,在测试的每个部分都需要相当长的时间。但是我们的内耳由一个物理结构组成,该结构在对声音进行暴露的同时将神经元暴露给声音,从而使位于不同位置的神经元与不同的频率相关。

单个神经元只能如此快速地重新发射,因此在某些情况下,一个接一个地使用几个神经元来跟上它的速度,但这只能在大约4 kHz左右的频率下起作用。音调的感知结束。然而,大脑中没有什么可以阻止神经元在感觉倾斜的任何时候触发,那么最重要的频率是多少?

关键是耳朵之间的微小相位差是可以感知的,但是与其改变我们通过声音的光谱结构识别声音的方式,不如改变我们对声音方向的感知。(HRTF也会改变!)即使它似乎应该“滚开”我们的听觉范围之外。

答案是-3dB或什至-10dB的点仍然太低-您需要达到-80 dB的点才能得到全部。而且,如果您既要处理声音又要保持安静,则需要将声音调低至-100 dB以上。单音收听测试是不可能看到的,主要是因为这样的频率仅在它们与其他谐波同相时作为“尖锐的瞬变声音”的一部分才“计数”-在这种情况下,它们的能量加在一起,达到足够的集中度触发神经反应,即使作为单独的频率成分孤立起来,它们可能太小而无法计数。

另一个问题是,无论如何,我们经常受到许多超声噪声源的轰炸,其中很大一部分可能是由于我们自己内耳的神经元破裂所致,这些噪声在我们生活中的某个先验点受到过分的声级破坏。在如此大的“本地”噪音下,很难分辨出听力测试的隔离输出音调!

因此,这需要“透明”系统设计使用更高的低通频率,以便在系统之前有空间供人类低通淡出(通过您的大脑已经“校准”到其自身的相位调制)。相位调制开始改变瞬态的形状,并及时改变它们的位置,使大脑无法再识别它们属于哪种声音。

使用耳机,要简单地将它们构造为具有足够带宽的单个宽带驱动器,并依靠“未校正”驱动器的非常高的固有频率响应来防止时间失真,要容易得多。这对于耳机来说效果更好,因为驾驶员的体重很小,很适合这种情况。

需要相位线性的原因深深扎根于时域频域对偶性,这也是您无法构建可以“完美校正”任何实际物理系统的零延迟滤波器的原因。

之所以要使用“相位线性”而不是“相位平坦度”,是因为相位曲线的总斜率无关紧要-通过双重性,任何相位斜率都等于恒定的时间延迟。

每个人的外耳都有不同的形状,因此在略有不同的频率下会出现不同的传递函数。您的大脑已经习惯了它拥有的东西,并拥有自己独特的共鸣。如果您使用了错误的耳机,实际上听起来会更糟,因为您的大脑习惯于进行的校正将不再与耳机的传递函数中的校正相对应,并且您会感到比无法消除共振更糟糕的事情-您将有两倍不平衡的极点/零点,使相位延迟杂乱无章,并彻底控制了群延迟和组件到达时间之间的关系。

听起来还不太清楚,您将无法分辨出记录所编码的空间图像。

如果您进行盲人A / B听力测试,那么每个人都将选择未经校正的耳机,至少不会使小组的延迟如此之大,以使他们的大脑可以适应自己的需求。

这就是为什么有源耳机不尝试均衡的原因。很难做到正确。

这也是数字房间校正之所以如此利基的原因:因为正确使用它需要经常进行测量,这些测量很难/不可能进行,并且消费者通常不希望知道。

主要是因为在校正室内的声音共振(大部分是低音响应的一部分)会随着气压,温度和湿度的变化而保持轻微移动,从而使声音速度略有变化,从而使共振远离它们是进行测量的时间。


F domian滤波的确会引起相位失真。可以使用所有通过的相位均衡来弥补这一点。从理论上讲,数字或模拟可以具有良好的相位。如今,数字技术提供了更好的灵活性。
自闭症2015年

啊谢谢你 这很清楚地说明了为什么在传递模拟信号的有源耳机(有线耳机)中没有做到这一点。看来,这样就打开了实时调整电平的可能性,而不会在信号源(例如计算机或电话)上以数字方式或在无线耳机上以数字方式无相位延迟地实时调整相位,而不会出现任何延迟。作为“完全平坦”(HRTF之后)回应的可行性,这是否仍然开放?
Ehryk 2015年

否。必须有一些延迟。否则,您实际上就需要一台时间机器,因为在不增加任何延迟的情况下校正真实(因果)系统相位的唯一方法是使用具有完全相反的,因果时间响应的滤波器。这意味着它一定需要知道信号的“未来”它的土地在时间之前= 0
RGD2

-1

有趣的文章和讨论。我们倾向于认为Nyquist定理是适用于所有地方的规则,然后我们发现事实并非如此。您可以使用正弦波将人的听力极限测量为20kHz,然后以44.1或48 kHz的采样率进行采样,并确信已捕获了耳朵可以听到的所有声音。尽管一个通道在时间上的差异在20kHz以上,但将一个通道移动一个样本会引起明显的变化。

在运动图像中,我们认为眼睛会以每秒20帧以上的帧速率集成图像。因此,胶片以24fps的速度拍摄,并使用2倍的快门播放以减少闪烁(48fps);电视的帧频为50或60 Hz,具体取决于区域。我们中有些人可以看到50 Hz的帧频闪烁,特别是如果我们已经成长为60 Hz。但是,这里变得很有趣。在过去几年的好莱坞专业协会技术务虚会和SMPTE会议上,已经表明,当原始帧从60 Hz扩展到120 Hz时,普通观众会看到质量的显着提高。更令人惊讶的是,当帧速率从120 Hz增加到240 Hz时,相同的观看者看到了类似的改进。奈奎斯特会告诉我们,如果我们看不到24帧速率,我们只需要将帧速率提高一倍即可保证捕获人眼可以分辨的一切;但是在这里,我们的帧率为10倍,仍然观察到明显的差异。

显然,这里还有更多活动。在运动成像的情况下,图像中的运动会影响所需的帧速率。在音频方面,我希望音景的复杂性和密度决定所需的音频分辨率。所有这些声音很大程度上依赖于它们的相位相干性,而不是频率响应来提供成像所需的清晰度。


我在这里找不到任何可以回答这个问题的东西。采样率和奈奎斯特采样定理与耳机均衡有什么关系?
管道

人类中没有ADC。人类的听觉\视觉不会“采样”任何东西,它使用的是神经元,它是模拟和数字之间的一种混合,实际上是连续的。耳朵有身体上的切口。视觉也受到大脑处理信息的速度的限制。
电压峰值
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.