此答案归功于@ttnphns,他在上面的评论中解释了所有内容。不过,我想提供一个扩展的答案。
给您的问题:标准化和非标准化功能的LDA结果是否完全相同?---答案是肯定的。我将首先给出一个非正式的论点,然后再进行一些数学运算。
想象一下一个2D数据集,它显示为气球一侧的散点图(原始气球图片从此处拍摄):
在这里,红点是一类,绿点是另一类,黑线是LDA类边界。现在,轴或轴的重新缩放对应于水平或垂直拉伸气球。从直觉上很清楚,即使在这种拉伸之后黑线的斜率会发生变化,这些类也将像以前一样完全可分离,并且黑线的相对位置不会改变。每个测试观察值都将与拉伸之前分配给同一类别。因此可以说拉伸不会影响LDA的结果。xy
现在,在数学上,LDA通过计算特征向量来找到一组判别轴,其中和在类内和类之间散布矩阵。等效地,这些是广义特征值问题的广义特征向量。W−1BWBBv=λWv
考虑一个中心数据矩阵其中变量在列中,数据点在行中,因此总散点矩阵由。标准化数据等于将的每一列缩放一定数量,即用替换其中,其中是对角矩阵,对角矩阵上具有缩放系数(每列标准偏差的倒数)。经过这样的缩放后,散布矩阵将发生如下变化:,并且将发生相同的转换XT=X⊤XXXnew=XΛΛTnew=ΛTΛWnew和。Bnew
令为原始问题的特征向量,即如果将此方程式与左侧的相乘,并在之前在两侧插入,则将获得即即v
Bv=λWv.
ΛΛΛ−1vΛBΛΛ−1v=λΛWΛΛ−1v,
BnewΛ−1v=λWnewΛ−1v,
Λ−1v是重新缩放后的特征向量,其特征值与以前完全相同。
λ
因此,判别轴(由特征向量给定)将发生变化,但其特征值(表示各类的分离程度)将保持完全相同。此外,该轴上的投影最初由给出,现在将由,即也将保持完全相同(可能取决于比例因子)。XvXΛ(Λ−1v)=Xv
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scales
不,这句话是不正确的。LDA的标准化问题与任何多变量方法相同。例如,PCA。马氏距离与该主题无关。