1
语音识别的降噪与应该使人类的语音“更难以理解”的降噪有何不同?
这是一个让我很感兴趣的问题,主要是因为我自己正在为现有的语音识别系统进行降噪工作。 关于降噪技术的大多数论文似乎都集中在如何使语音对人类更易懂,或者如何改善诸如“语音质量”之类的模糊术语上。 我敢肯定,使用这样的标准,您可以识别出可以使嘈杂的语音信号更容易被人类听见的滤波器。但是,我不确定在尝试评估已被去噪以提高语音识别系统准确性的语音信号时,是否可以简单地采用这些标准。 我真的没有找到讨论这种差异的论文。语音清晰度和语音质量是否与语音识别系统的准确性相关?是否有客观的指标可以评估降噪后的语音信号对于语音识别系统的“良好”程度(例如,如果还给出了原始的干净语音)?还是唯一的方法来找出您的降噪技术有多好,在去噪数据上训练语音识别系统并查看准确性? 如果有人可以指出我正确的方向,或者提供一些讨论此问题的论文,我将感到非常高兴。提前致谢!