使用LDA作为预处理步骤时的功能标准化


9

如果使用多类线性判别分析(或有时也阅读“多判别分析”)进行降维(或通过PCA进行降维后的变换),则我通常会理解为即使使用完全不同的比例尺测量功能也不需要,对吗?因为LDA包含类似于马哈拉诺比斯距离的术语,已经暗示了标准化的欧几里得距离?

因此,不仅没有必要,而且在LDA上标准化和非标准化功能的结果应该完全相同!


1
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scales不,这句话是不正确的。LDA的标准化问题与任何多变量方法相同。例如,PCA。马氏距离与该主题无关。
ttnphns 2014年

谢谢,如果您可以对例如PCA中的“标准化问题”发表评论,那就太好了。如果特征不是针对PCA的标准化标准,那么,如果以不同的比例尺对它们进行度量并赋予我完全不同的分量轴,那么某些特征岂不是贡献更大(加权)吗?对于LDA,为什么没有必要?结果(线性判别式)是否不同?为什么?

2
当您标准化(即居中然后缩放)时,您实际上将在分析相关性。如果您不进行标准化,而仅进行居中,那么您实际上将在分析协方差。结果会有所不同,这很正常,因为这就像您处理不同的数据一样。这个事实不应该让您担心。您可能会喜欢阅读线程stats.stackexchange.com/q/62677/3277
ttnphns 2014年

2
@SebastianRaschka,变形虫:我必须重新考虑我的评论The issue of standardization with LDA is the same as in any multivariate method。实际上,对于LDA(例如,与PCA相对),无论是仅居中(LDA在内部始终将变量居中以提取判别式)还是对数据进行z标准化,结果都不会有所不同。
ttnphns 2014年

2
(续)特征值,标准化系数,结构相关性,判别分数-一切都将相同。仅特征向量将不同。标准化对LDA的主要结果没有影响的原因是LDA分解了内部之间协方差的比率,而不是协方差本身具有幅度(如PCA那样)。
ttnphns 2014年

Answers:


13

此答案归功于@ttnphns,他在上面的评论中解释了所有内容。不过,我想提供一个扩展的答案。

给您的问题:标准化和非标准化功能的LDA结果是否完全相同?---答案是肯定的。我将首先给出一个非正式的论点,然后再进行一些数学运算。

想象一下一个2D数据集,它显示为气球一侧的散点图(原始气球图片从此处拍摄): 气球上的LDA

在这里,红点是一类,绿点是另一类,黑线是LDA类边界。现在,轴或轴的重新缩放对应于水平或垂直拉伸气球。从直觉上很清楚,即使在这种拉伸之后黑线的斜率会发生变化,这些类也将像以前一样完全可分离,并且黑线的相对位置不会改变。每个测试观察值都将与拉伸之前分配给同一类别。因此可以说拉伸不会影响LDA的结果。xy


现在,在数学上,LDA通过计算特征向量来找到一组判别轴,其中和在类内和类之间散布矩阵。等效地,这些是广义特征值问题的广义特征向量。W1BWBBv=λWv

考虑一个中心数据矩阵其中变量在列中,数据点在行中,因此总散点矩阵由。标准化数据等于将的每一列缩放一定数量,即用替换其中,其中是对角矩阵,对角矩阵上具有缩放系数(每列标准偏差的倒数)。经过这样的缩放后,散布矩阵将发生如下变化:,并且将发生相同的转换XT=XXXXnew=XΛΛTnew=ΛTΛWnew和。Bnew

令为原始问题的特征向量,即如果将此方程式与左侧的相乘,并在之前在两侧插入,则将获得即即v

Bv=λWv.
ΛΛΛ1v
ΛBΛΛ1v=λΛWΛΛ1v,
BnewΛ1v=λWnewΛ1v,
Λ1v是重新缩放后的特征向量,其特征值与以前完全相同。λ

因此,判别轴(由特征向量给定)将发生变化,但其特征值(表示各类的分离程度)将保持完全相同。此外,该轴上的投影最初由给出,现在将由,即也将保持完全相同(可能取决于比例因子)。XvXΛ(Λ1v)=Xv


2
+1。整个故事的“道德”在于,唯一的中心数据和标准化数据的差异在特征向量中完全被消除。因此,当将数据乘以相应的特征向量以产生判别分数时,标准化的效果抵消。XXΛΛ
ttnphns 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.