LDA是一种分类技术,又如何像PCA一样用作降维技术


19

本文中 ,作者将线性判别分析(LDA)链接到主成分分析(PCA)。以我的有限知识,我无法理解LDA如何与PCA有点相似。

我一直认为LDA是分类算法的一种形式,类似于逻辑回归。我将对理解LDA与PCA的相似之处(即它如何降低维度)有一些帮助。


2
仅将LDA称为分类技术是不正确的。它是一种复合的两阶段技术:首先降低维数,然后分类。作为降维,与PCA不同,它受到监督。作为分类,它考虑边际概率,这与逻辑回归不同。
ttnphns

最清楚的是使用术语“降维”仅处理无监督的学习方法,例如聚类和冗余分析。LDA是严格监督的学习,因此如果将其用于数据缩减的第一步,则会造成过度拟合的偏差。
弗兰克·哈雷尔

一个更老的非常相似的问题:stats.stackexchange.com/q/22884/3277
ttnphns

1
弗兰克(Frank),例如特征选择的各种策略,可以在LDA的第一阶段应用(包括您不喜欢的逐步方法:-)。
ttnphns

Answers:


22

正如我在对您的问题的评论中所指出的那样,判别分析是一个具有两个不同阶段的复合过程,即降维(监督)和分类阶段。在降维中,我们提取判别函数来代替原始的解释变量。然后,我们使用这些函数将观察值分类(通常通过贝叶斯方法)到类中。

有些人往往不认识到LDA的这种清晰的两阶段性质,仅仅是因为他们只熟悉2类LDA(称为Fisher判别分析)。在这种分析中,仅存在一个判别函数,分类很简单,因此可以在一个教科书中通过一次“通过”来解释所有内容,而无需使用减少空间和贝叶斯分类的概念。

LDA MANOVA 密切相关。后者是(多元)线性模型的“表面和广角”,而其“深度和聚焦”图则是规范相关分析(CCA)。事实是,两个多元变量集之间的相关性不是一维的,可以通过几对称为标准变量的“潜在”变量来解释。

作为降维,LDA 理论上是具有两组变量的CCA,一组是相关的“解释性”区间变量,另一组是代表k个组的虚拟变量(或其他对比编码的变量)的意见。ķ-1个ķ

在CCA中,我们认为两个相关变量集X和Y的权限相等。因此,我们从两侧提取规范变量,它们形成对:集合X的变量1和集合Y的变量1,它们之间的典范相关性最大;然后从集合X的变量2和从集合Y的变量2具有较小的规范相关性,依此类推。在LDA中,我们通常对类集方面的规范变量不感兴趣。但是,我们对解释集方面的规范变量感兴趣。这些称为规范判别函数或判别式

判别式最大程度地与群体之间的“线”相关。判别式1解释了分离的主要部分;判别式2选择由于与先前分离性正交而留下的一些无法解释的分离性;描述3解释了与前两个正交的剩余残差,依此类推。在具有输入变量(维)和k个类的LDA中,可能的判别数(缩减维)为m i n k 1 p ),pķ一世ñķ-1个p,并且当LDA的假设可以使这些数目完全区分类,并且能够将数据完全分类为类(参见)。

再说一遍,这实际上是CCA。具有3个以上类别的LDA甚至被称为“规范LDA”。尽管CCALDA通常在算法上有所不同,但从程序效率的角度来看,它们足够“相同”,因此可以将在一个过程中获得的结果(系数等)重新计算为在另一个过程中获得的结果。LDA的大多数特异性都在编码代表组的分类变量的领域中。这是在(M)ANOVA中观察到的相同难题。不同的编码方案导致不同的系数解释方式。

由于LDA(作为降维)可以理解为CCA的一种特殊情况,因此,您肯定需要探索比较CCA与PCA和回归的答案。重点是,从某种意义上讲,CCA比PCA更接近回归,因为CCA是一种监督技术(绘制了潜在的线性组合以与外部事物相关),而PCA则不是(绘制了潜在的线性组合)总结内部)。这是降维的两个分支。

在数学方面,您可能会发现,虽然主成分的方差对应于数据云的特征值(变量之间的协方差矩阵),但判别式的方差与在LDA。原因是在LDA中,特征值不能概括数据云的形状;相反,它们与云中类间变化与类内变化之的抽象量有关。

因此,主成分最大化方差,而判别最大化类分离;PC不能很好地区分类别,但可以判别的是这些图片。当在原始特征空间中以直线绘制时,判别式通常不会看起来是正交的(尽管是不相关的),但是PC会显示正交。


脚注细致。在他们的结果中,LDA如何与CCA完全相关。重复一遍:如果对LDA使用p变量和k类,并且对CCA使用Set1作为那些p变量,并且Set2作为k-1表示组的指标伪变量(实际上,指标变量不一定是其他变量,例如偏差或Helmert 等其他类型的对比变量,则可以),那么就Set1提取的规范变量而言,结果是等效的-它们直接对应于LDA中提取的判别函数。确切的关系是什么?

ĴĴ

CCA标准化系数LDA原始系数=CCA典型变量值LDA判别值=集中在变量的类差异内 集中在判别的类差异内

n-11个

集中在变量的类差异内
圣 判别式的偏差σ

CCA和LDA之间的差异是由于LDA“知道”存在类(组):您直接指示用于计算散布矩阵内和散布矩阵的组。这使得计算速度更快,结果也更便于判别器进行后续分类。另一方面,CCA并不了解类,并且不会像对待所有数据都是连续变量那样处理数据-这是更通用的方法,但计算速度较慢。但是结果是相等的,并且我已经展示了如何。

到目前为止,这暗示了k-1虚拟对象是以典型方式进入CCA的,即居中(类似于Set1的变量)。一个人可能会问,是否有可能进入所有k假人而不居中(以逃避奇异性)?是的,有可能,尽管可能不太方便。将出现一个零特征值附加规范变量,应将其系数丢弃。其他结果仍然有效。除了df之外,它还检验了典型相关性的重要性。第一个相关性p*k的df是错误的,与LDA中一样,真实的df是p*(k-1)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.