播放器发出通知之前最大的音频延迟？

38

给定游戏中的某个事件，玩家将音频正确地与该事件相关联（而不感知延迟）的最大音频产生延迟是多少？

audio

— edA-qa mort-ora-y
source

不多。我猜它必须小于1/10秒。虽然从个人角度来说，如果它超过60 FPS的几帧，我可能会注意到。

— 2014年

不要忘记，在大多数情况下，渲染的输出也会有些滞后，其中有些会来自监视器。屏幕上显示播放器输入的结果可能需要100毫秒以上的时间。参见anandtech.com/show/2803-

— 亚当（Adam）

1

演奏乐器时大约20毫秒，当您是听众时大约80毫秒。这只是我的个人经历，您的行程可能会有所不同。

— rwols 2014年

您需要比任何特定时间都更长久的一致性。只要一切都具有相同的延迟，您就可以在合理范围内。如果一切都晚了100毫秒，您可能不会真正注意到它，但是如果有些声音接近即时，而其余声音是100毫秒或介于两者之间，则您会注意到。

— 0xFADE 2014年

如果您对某种现实行为感兴趣，可以将远离听众的事件的延迟视为积极的事情。

— Darkwings，

48

对于嘴唇同步计算出以下结果，该结果被认为是“最明显的音频/视频同步误差”。

维基百科说

对于电视应用，音频应领先视频不超过15毫秒，音频应落后于视频不超过45毫秒。对于电影，在任何一个方向上可接受的口型同步被认为不超过22毫秒。

媒体和声学感知实验室说

实验结果确定，用于音频/视频同步检测的平均音频超前阈值为185.19 ms，标准偏差为42.32 ms

ATSC说

乍一看，它似乎是松散的：+90 ms到-185 ms作为“可接受范围”

和

从-100毫秒到+25毫秒检测不到

可在-125毫秒和+45毫秒检测到

在-185毫秒和+90毫秒时变得不可接受

（–声音延迟，+声音增强）

总结一下

结果相差无几。似乎最大可接受的延迟约为150ms，即每秒60帧时为9帧。

— 黑克尔
source

3

“如果有延迟，那应该是延迟的视频。” 似乎应该扭转这种情况，ATSC的文章清楚地指出，人们希望/容忍视线后出现的声音（因为在现实生活中，声音与视线的距离大约为每英尺距离1毫秒），但没有正确关联事件如果声音之后发生视频事件。

— 彼得斯2014年

你说得对，我完全误会了。谢谢。（我编辑）

— 赫克尔

1

从我的亲身经历，我可以告诉你，甚至同一个人的耳朵之间也有差异。我有一种罕见的前庭病，实际上导致我的大脑对我的左耳进行听觉刺激，而对右耳的测量却明显延迟。在恶劣的天气下，这会引起头晕，但在大多数情况下是可以忍受的。是的，这是非常主观的。

— 安东·科尔曼

您在哪里获得150ms？您的信号源平均约为45ms。

— Miles Rout 2014年

维基百科说45毫秒，但不一定是最可靠的来源。第二个来源为185.19毫秒，第三个来源为125毫秒，直到它变得明显为止。您能引用源代码来帮助我了解我的错误之处吗？

— Heckel

9

取决于事件

感觉到，例如，您看到和听到的爆炸是单个事件，将具有其他答案中描述的容差-不超过50毫秒；有些人可能比较敏感（例如，音乐家），所以我建议瞄准30ms或60fps不超过2帧。

我认为感知的距离会影响这些公差。人们期望远处的声音会略微延迟，因为在现实生活中，声音的视线每英尺距离大约延迟1毫秒。因此，与玩家在FPS中发射自己的枪支相比，缩小RTS游戏“地图”上的爆炸可能具有更大的声音延迟容忍度。

特殊情况下，例如对音乐/节奏游戏具有适当的感觉，可能需要更严格的容差，即15-20ms甚至更低；例如，如果玩家听到了“输入动作”，例如唱歌或打麦克风，塑料乐器，以及您的系统为同一事件生成的声音，那么50ms的延迟将导致“原始”和“演奏”的声音怪异地混合。

此外，请记住，音频文件的开始与该音频文件内的“事件”之间存在时滞-在许多音频剪辑中，“事件”不会就在边缘，您可能会有闪电的声音在开始后200毫秒发生“罢工”的罢工，这对每个人来说都是显而易见的，几乎所有声音文件，甚至是鼓声，都会在那儿有所延迟。

不要衡量平均值-看最坏的情况

视听与人类的感知息息相关，如果其中一个相对于其他人口吃，那将是可感知的。如果大多数情况下都非常快，那是不可以的，但是在加载某些内容时有时会有0.2秒的延迟-人们会注意到这种情况。这就是为什么音频通常保持在单独的线程上运行，与其他活动隔离开来，并且只是获得有关应该播放哪些预载剪辑的快速通知的原因。

— 彼得是
source

5

玩家发出声音的任何情况（音乐游戏，FPS中的枪声）都将需要非常低的延迟，因为玩家在那一刻发出了使它发生的冲动，因此，在音乐家听到其乐器延迟的情况下，将特别意识到很小的延迟。录音师担心录制延迟低于5毫秒会破坏“凹槽”

《美国听力学学会杂志》指出，人们（不仅仅是音乐家）在聆听自己的声音延迟时，会意识到延迟仅为3mSec，而延迟超过10mSec的情况在90％的时间内令人反感。

人类将两耳之间的时间延迟用于定向信息，因此必须能够处理并从1mSec以下的延迟中提取信息

上面引用的185.19毫秒无关紧要，因为它指的是领先的声音错误，无论如何，这与人们在被动地观看电影而不是主动参与游戏时发现的可接受的错误无关。

— 山姆
source

4

这里接受的答案主要讨论被动观看视频中音频同步的感知。在这些情况下，除了关注视频中的告示牌，观众无法轻易确定何时播放音频。这意味着他们对声音的预期有限。

在游戏中有两种重要情况，这种低期望值的假设不成立：

当玩家自己发出声音时（正如SamB指出的那样），因此从他们打算按下按钮的那一刻起，他们就确切地知道他们希望何时听到声音。
当声音应定期播放时，例如在音乐游戏或带有计时器/计数器的任何事物中，此节奏可使演奏者预见下一个声音并注意是否播放超时。

在GDC 2013的这次演讲中，Mathieu Pavageau认为，玩家可以感知到大约5毫秒以上的同步精度差异，比嘴唇同步示例所显示的宽容度要低得多。查看“时间感知示例”和“ Ubisoft游戏示例”部分，亲自聆听。您可以听到，在16毫秒（视频帧）内同步时，Rayman Origins菜单本身听起来并不“滞后”，但在5毫秒内同步时，听起来明显更好，更紧。

如果您想要这种类型的节奏感紧密的游戏，Pavageau提倡使用低级音频回调来获得这种子帧精度。

— DMGregory
source

2

对于要求人对音频提示做出反应的游戏，声音被延迟的每一毫秒都会导致人的响应同样被延迟。如果音频和视频不完全同步，则只是观看电影或过场动画的人可能不会注意到太多，但是音频与播放器的预期同步通常很重要，有时也很关键。

— 超级猫
source

-1

从理论上讲，超过50毫秒的所有内容都与图片关联时会很明显，在25毫秒时您可以开始听到声音并将其延迟为两种分离的声音，因此我强烈建议您保持在50毫秒以下，如果您甚至可以停留在5ms到15ms的范围内，这真的很好。

我希望这能帮到您！

https://zh.wikipedia.org/wiki/Delayed_Auditory_Feedback

— X射线声音
source

该答案不会添加现有答案中不存在的任何新建议，因此有可能只是作为您公司联系信息的插件或广告而消失。StackExchange并非旨在促进服务，因此，我建议删除该部分（人们仍然可以通过您的用户名来查找您），并添加更多有关为何您建议除了现有答案所涵盖的特定时间安排之外的原因的更多详细信息。

— DMGregory

我们看到的答案都不适合我们，我们是音响工程师团队，而音响是我们学到的第一件事。有些答案说的时间超过100毫秒，其他答案说的是-100s和+ 85s，这甚至是答案吗？-50ms或+ 50ms，动作和声音之间仍相差50ms。我们只会在提供令人反感的电子邮件时尝试提供帮助，我们将其删除。

— X-Raysounds

例如，请参见3年前的Peteris的答案，该答案给出了50 ms的绝对上限，并建议像该答案一样建议较低的上限，或者参考Mathieu Pavageau的演讲，建议将5ms作为理想目标。除非您要扩展建议，否则这似乎涵盖了此答案中所包含的全部内容。例如，如果您认为Wikipedia链接中有相关的详细信息，则最好在答案文本中至少对其进行总结（以防将来链接的页面发生更改）。

— DMGregory

抱歉，我们没有阅读所有答案，只是跳过了一些答案，然后我们说了我们知道的内容，并通过Wikipedia链接予以实施，我们仍然是论坛的新手，我们正在尝试在声音方面提供一些帮助相关问题，但我们没有发现太多哈哈

— X-Raysounds

别担心。指导新用户是这些评论存在的原因之一。:)您很快就会掌握StackExchange的答案-这只是意味着将其视为长期的参考资源，而不是论坛的答复。

— DMGregory