语音识别的降噪与应该使人类的语音“更难以理解”的降噪有何不同?


10

这是一个让我很感兴趣的问题,主要是因为我自己正在为现有的语音识别系统进行降噪工作。

关于降噪技术的大多数论文似乎都集中在如何使语音对人类更易懂,或者如何改善诸如“语音质量”之类的模糊术语上。

我敢肯定,使用这样的标准,您可以识别出可以使嘈杂的语音信号更容易被人类听见的滤波器。但是,我不确定在尝试评估已被去噪以提高语音识别系统准确性的语音信号时,是否可以简单地采用这些标准。

我真的没有找到讨论这种差异的论文。语音清晰度和语音质量是否与语音识别系统的准确性相关?是否有客观的指标可以评估降噪后的语音信号对于语音识别系统的“良好”程度(例如,如果还给出了原始的干净语音)?还是唯一的方法来找出您的降噪技术有多好,在去噪数据上训练语音识别系统并查看准确性?

如果有人可以指出我正确的方向,或者提供一些讨论此问题的论文,我将感到非常高兴。提前致谢!

Answers:


2

我真的没有找到讨论这种差异的论文。

有关该主题的整本书:

健壮的自动语音识别第一版

语音清晰度和语音质量是否与语音识别系统的准确性相关?

通常不会,降噪通常会以无法预测的方式破坏功能并降低语音识别的准确性。

是否有客观的指标可以评估降噪后的语音信号对于语音识别系统的“良好”程度(例如,如果还给出了原始的干净语音)?还是唯一的方法来找出您的降噪技术有多好,在去噪数据上训练语音识别系统并查看准确性?

第二。此外,基于特征的降噪实际上实际上从频谱中完全删除了重要信息,因此您无法修复干净系统的准确性。因此,现代方法是对嘈杂的数据执行多样式训练,而不是事先使用降噪算法。它以更准确的识别结尾。


感谢您的回答。我想我不是在寻找合适的论文。我会看那本书。
marlonfl '17

好的,如果您想要论文,则可以检查CHIME-4挑战结果,主要是强大的ASR的技术水平。
Nikolay Shmyrev
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.