4
傅里叶变换和余弦变换有什么区别?
在语音识别中,前端通常进行信号处理以允许从音频流中提取特征。离散傅里叶变换(DFT)在此过程中应用了两次。第一次是在窗口化之后;在此之后,将进行梅尔合并,然后再进行另一个傅立叶变换。 但是,我注意到,在语音识别器(例如CMU Sphinx中的默认前端)中,第二步操作通常使用离散余弦变换(DCT)而不是DFT ,这是很常见的。这两个操作有什么区别?为什么要第一次进行DFT,然后第二次进行DCT?