给定游戏中的某个事件,玩家将音频正确地与该事件相关联(而不感知延迟)的最大音频产生延迟是多少?
给定游戏中的某个事件,玩家将音频正确地与该事件相关联(而不感知延迟)的最大音频产生延迟是多少?
Answers:
对于嘴唇同步计算出以下结果,该结果被认为是“最明显的音频/视频同步误差”。
维基百科说
对于电视应用,音频应领先视频不超过15毫秒,音频应落后于视频不超过45毫秒。对于电影,在任何一个方向上可接受的口型同步被认为不超过22毫秒。
实验结果确定,用于音频/视频同步检测的平均音频超前阈值为185.19 ms,标准偏差为42.32 ms
ATSC说
乍一看,它似乎是松散的:+90 ms到-185 ms作为“可接受范围”
和
- 从-100毫秒到+25毫秒检测不到
- 可在-125毫秒和+45毫秒检测到
- 在-185毫秒和+90毫秒时变得不可接受
(–声音延迟,+声音增强)
总结一下
结果相差无几。似乎最大可接受的延迟约为150ms,即每秒60帧时为9帧。
感觉到,例如,您看到和听到的爆炸是单个事件,将具有其他答案中描述的容差-不超过50毫秒;有些人可能比较敏感(例如,音乐家),所以我建议瞄准30ms或60fps不超过2帧。
我认为感知的距离会影响这些公差。人们期望远处的声音会略微延迟,因为在现实生活中,声音的视线每英尺距离大约延迟1毫秒。因此,与玩家在FPS中发射自己的枪支相比,缩小RTS游戏“地图”上的爆炸可能具有更大的声音延迟容忍度。
特殊情况下,例如对音乐/节奏游戏具有适当的感觉,可能需要更严格的容差,即15-20ms甚至更低;例如,如果玩家听到了“输入动作”,例如唱歌或打麦克风,塑料乐器,以及您的系统为同一事件生成的声音,那么50ms的延迟将导致“原始”和“演奏”的声音怪异地混合。
此外,请记住,音频文件的开始与该音频文件内的“事件”之间存在时滞-在许多音频剪辑中,“事件”不会就在边缘,您可能会有闪电的声音在开始后200毫秒发生“罢工”的罢工,这对每个人来说都是显而易见的,几乎所有声音文件,甚至是鼓声,都会在那儿有所延迟。
视听与人类的感知息息相关,如果其中一个相对于其他人口吃,那将是可感知的。如果大多数情况下都非常快,那是不可以的,但是在加载某些内容时有时会有0.2秒的延迟-人们会注意到这种情况。这就是为什么音频通常保持在单独的线程上运行,与其他活动隔离开来,并且只是获得有关应该播放哪些预载剪辑的快速通知的原因。
玩家发出声音的任何情况(音乐游戏,FPS中的枪声)都将需要非常低的延迟,因为玩家在那一刻发出了使它发生的冲动,因此,在音乐家听到其乐器延迟的情况下,将特别意识到很小的延迟。录音师担心录制延迟低于5毫秒会破坏“凹槽”
《美国听力学学会杂志》 指出,人们(不仅仅是音乐家)在聆听自己的声音延迟时,会意识到延迟仅为3mSec,而延迟超过10mSec的情况在90%的时间内令人反感。
人类将两耳之间的时间延迟用于定向信息,因此必须能够处理并从1mSec以下的延迟中提取信息
上面引用的185.19毫秒无关紧要,因为它指的是领先的声音错误,无论如何,这与人们在被动地观看电影而不是主动参与游戏时发现的可接受的错误无关。
这里接受的答案主要讨论被动观看视频中音频同步的感知。在这些情况下,除了关注视频中的告示牌,观众无法轻易确定何时播放音频。这意味着他们对声音的预期有限。
在游戏中有两种重要情况,这种低期望值的假设不成立:
当玩家自己发出声音时(正如SamB指出的那样),因此从他们打算按下按钮的那一刻起,他们就确切地知道他们希望何时听到声音。
当声音应定期播放时,例如在音乐游戏或带有计时器/计数器的任何事物中,此节奏可使演奏者预见下一个声音并注意是否播放超时。
在GDC 2013的这次演讲中,Mathieu Pavageau认为,玩家可以感知到大约5毫秒以上的同步精度差异,比嘴唇同步示例所显示的宽容度要低得多。查看“时间感知示例”和“ Ubisoft游戏示例”部分,亲自聆听。您可以听到,在16毫秒(视频帧)内同步时,Rayman Origins菜单本身听起来并不“滞后”,但在5毫秒内同步时,听起来明显更好,更紧。
如果您想要这种类型的节奏感紧密的游戏,Pavageau提倡使用低级音频回调来获得这种子帧精度。
从理论上讲,超过50毫秒的所有内容都与图片关联时会很明显,在25毫秒时您可以开始听到声音并将其延迟为两种分离的声音,因此我强烈建议您保持在50毫秒以下,如果您甚至可以停留在5ms到15ms的范围内,这真的很好。
我希望这能帮到您!