这是有关线性判别分析(LDA)的简短故事,作为对问题的答复。
当我们有一个变量和组(类)来区分时,这就是ANOVA。变量的辨别力是或组之间的 k S S / B / W 组内的 S Sķ小号小号组之间/秒小号组内乙/ w ^。
当我们有变量时,这就是MANOVA。如果变量在总样本中或组中都不相关,则上述判别力的计算方式类似,可以写为,其中是合并的组内散布矩阵(即,以各个组的质心为中心的变量的 SSCP矩阵的总和);是组间散布矩阵,其中B / W t r a c e (S b)/ t r a c e (S w)S w k S b = S t − S w S tp乙/ w ^吨ř 一个Ç ë (小号b)/吨ř一个Çë(小号w)小号wk p x p
Sb=St−SwSt 是整个数据的分散矩阵(以大质心为中心的变量的SSCP矩阵。(“分散矩阵”只是一个协方差矩阵,没有sample_size-1的确定性。)
当变量之间存在一定的相关性时-通常存在-上述由,它不再是标量,而是矩阵。这仅仅是由于在“整体”歧视的背后隐藏着判别变量,并部分地将其共享。S − 1 w S b pB/WS−1wSbp
现在,我们可能希望淹没在MANOVA中,并将分解为新的且相互正交的潜在变量(其数量为),称为判别函数或判别式 -第1个是最强的鉴别器,第二是紧随其后的,依此类推。就像我们在主要成分分析中所做的一样。我们用不相关的判别式替换原始的相关变量,而不会损失判别力。由于每个下一个判别式都越来越弱,因此我们可以接受前判别式的一小部分,而不会大幅度损失判别力(再次类似于我们使用PCA的方式)。这是 min(p,k−1)mS−1wSbmin(p,k−1)m LDA维 技术(LDA也是贝叶斯的分类技术,但这是一个完全独立的主题)。
LDA因此类似于PCA。PCA分解“关联性”,LDA分解“分离性”。在LDA中,由于上述表示“分离性”的矩阵不对称,因此使用旁路代数技巧来找到其特征值和特征向量。每个判别函数(一个潜在变量)的特征值就是我在第一段中所说的判别能力同样,值得一提的是,判别式虽然不相关,但在原始变量空间中绘制的轴上并不是几何正交的。乙/ w ^1B/W
您可能需要阅读一些潜在的相关主题:
LDA是 MANOVA“深化”到分析潜结构,且是典型相关分析的一个特定情况下(与它们之间的确切等价这样)。
LDA如何分类对象以及费舍尔系数是什么。(我记得它们目前仅链接到我自己的答案,但是该网站上的其他人也提供了许多更好的更好的答案)。
1 LDA提取阶段的计算如下。特征值()与对称矩阵,其中是乔列斯基根的:一个上三角矩阵,由此。对于的特征向量,它们由,其中是上述矩阵。(注意:为三角形,LS−1wSb(U−1)′SbU−1USwU′U=SwS−1wSbV=U−1EE(U−1)′SbU−1U可以倒置-使用底层语言-比使用包的标准通用“ inv”功能更快。)
小号瓦特小号- 1 / 2瓦特小号- 1 / 2瓦特小号b 小号- 1 / 2瓦特大号S−1wSbSwS−1/2wS−1/2wSbS−1/2wLA。可以将“准zca-whitening”方法重写为通过案例数据集的奇异值分解来完成,而不是使用Sw和Sb散布矩阵。这增加了计算精度(在接近奇异的情况下很重要),但是却牺牲了速度。V=S−1/2wASwSb
好的,让我们转到通常在LDA中计算的统计信息。对应于特征值的典范相关为Γ=L/(L+1)−−−−−−−−−√B/WB/T
V
C=N−k−−−−−√ VXCX
C0=−∑pdiag(X¯)Cdiag(X¯)∑p
K=diag(Sw)−−−−−−−−√VSw
R=diag(Sw)−1SwV
请参见此处对虹膜数据进行判别分析的提取阶段的完整输出。
阅读后面的这个不错的答案,它会更正式地解释并详细介绍与我在此处所做的相同的事情。
这个问题涉及在执行LDA之前对数据进行标准化的问题。