DCT可以用于音频幅度频谱而不是DFT吗？

据我了解，DCT具有相同大小N的DFT的二进制大小的一半。DFT还包含相位信息，但是当仅需要幅度谱时，通常不需要此信息。

dct dft

— 雅各布
source

我相信DCT也包含相位信息，只是它不使用复数。通过丢弃相同的负频率，“实际FFT”还为相同信息使用一半的内存和一半的计算时间。“双倍长度FFT的实部与DCT相同，除了正弦基函数中的半采样相移之外”

— endolith，2011年

确实，至少可以将系数的符号视为一个穷人的相位

— Laurent Duval

Answers:

是的，DCT可用于提供密度为两倍的幅度谱。我不太了解重叠，但是我假设由于DCT覆盖的范围较小，您认为会有重叠。为了提供对该问题的合格答案，让我快速回顾一下DCT在主要图像处理中的用法。

首先，我们需要做一些假设。为了使用DCT，您需要有一个真实的信号。这是根据定义。当您说的时候，DCT的bin大小是DFT的N大小的一半，您假设该信号是低频信号。否则，不会那么多。

为了在压缩中使用DCT，由于图像的DFT将是对称的，因此它会产生冗余信息（一个侧面镜足以再现信号）。因此，与DFT相比，使用DCT的内核来产生更密集的信息。低频音频信号也是如此，可以以相同的方式使用。尽管DCT的核心更加密集，但系数却变得更大，因为DCT的内核覆盖了信号的两侧（实部和虚部）。

我的专业是图像处理，因此我尝试在图像处理中映射DCT和DFT概念和说明。但是，图像和音频之间的差异可能是尺寸。在图像处理中，您知道大小（用于FFT和其他处理目的的行和列）。我想您需要以某种方式划分音频数据的向量，以便进行进一步处理。不知道数据，这可能很麻烦（我不确定）。

这是从网络上拍摄的图像，但是我没有写下来，可能是维基百科。

图像处理

如您所见，变换后的图像在DCT中通过幅度谱表示没有问题。以更紧凑，更密集的方式查看系数的大小。它大于DFT的两倍。DFT是对称的，您可以将其分为两部分。一部分是多余的。另外，DCT可以存储的信息不仅是DFT的一半，而且是DFT的近四分之一。通常，DCT会在图像中克服DFT。

— 赫菲斯托斯
source

由于FFT在X和Y维度上都是多余的，因此不能将FFT分为四分之一吗？

— endolith 2011年

为什么看起来FFT包含更多信息而DCT包含更多零？

— endolith 2011年

第一个问题，我不太了解，您对X和Y尺寸的含义是什么？第二个问题是由于内核不同。它看起来不像DCT包含更多的零，实际上它包含比普通傅立叶变换（DFT）更多的零。再次是由于它们内核不同。

— Hephaestus

我的意思是图像是真实信号，因此FFT包含冗余信息。在两个维度上，FFT的负一半只是正一半的镜像。

— endlith 2011年

从这个问题中，我了解到您正在考虑以滑动傅立叶或频谱图的方式执行局部的块处理。

如果您谈论幅度谱，则当然会丢失部分相位（无论是复数傅立叶系数的论点还是DCT系数的符号）。

因此，您当然可以在短期傅里叶公式中插入很多内核来代替窗口傅里叶变换，仅用于分析。各种DCT，它们的重叠版本（LOT，MDCT），具有良好的正交和窗口特性，甚至可以反转（合成）。

在音频中，（非复杂的）DCT或重叠的版本通常用于分析，开始和音高检测（（盲源分离）），例如A. Liutkus 的STFT，MDCT和 Matlab 逆工具箱。该大时频分析工具箱（LTFAT）还具有：

具有线性时频范围的快速TF变换：Gabor（STFT），Wilson和开窗MDCT

Gabor和WMDCT域中的稀疏回归

我不太了解音频。但是，有50％或75％的重叠是很常见的，很少有人使用其他设置。然而，这是很常见的使用至少两个窗口大小，长的一个固定部分，短单为一过性，帮助克服了“一窗式”时间频率的限制。

— 劳伦·杜瓦尔（Laurent Duval）
source