回归与线性判别分析(LDA)之间有什么关系?


24

回归和线性判别分析(LDA)之间有关系吗?它们有什么异同?如果有两个班级或两个以上班级,这有什么区别吗?


3
给读者的注释:这个问题是模棱两可的,可以理解为询问逻辑回归线性回归。OP似乎对这两个方面都感兴趣(请参阅评论)。公认的答案是关于线性回归的,但是其他一些答案则集中在逻辑回归上。
变形虫说莫妮卡(Monica)恢复2015年

Answers:


20

我认为问题在于LDA和线性(非逻辑)回归。

线性回归线性判别分析之间存在着相当有意义的关系。如果因变量(DV)仅由2组组成,则这两个分析实际上是相同的。尽管计算方法不同并且结果(回归系数和判别系数)并不相同,但它们却彼此成正比

现在是针对两人以上的情况。首先,让我们指出,如果将分组DV转换为一组虚拟变量(其中有一个多余的变量被删除)并进行规范化,则LDA(其提取,不是分类阶段)与规范相关分析是等效的(线性相关结果)。集“ IV”和“假人”进行分析。您获得的“ IV”集一侧的规范变量 LDA所谓的“判别函数”或“判别函数”。

那么,典范分析与线性回归有何关系?规范分析本质上是深化到潜在结构中MANOVA(即“多元线性回归”或“多元线性模型”)DV和IV之间的关系。这两个变体在相互关系中被分解为潜在的“规范变体”。让我们举一个最简单的例子,Y vs X1 X2 X3。两侧之间的相关性最大化是线性回归(如果您通过Xs预测Y)或-相同的是MANOVA(如果您通过Xs预测Xs)。相关性是一维的(幅度R ^ 2 = Pillai的迹线),因为较小的集合Y仅包含一个变量。现在,让我们来看这两套:Y1 Y2 vs X1 x2 x3。由于较小的一组包含2个变量,因此此处最大化的相关性是2维的。相关的第一个且更强的潜在维称为第一规范相关,而与之正交的其余部分称为第二规范相关。所以,MANOVA(或线性回归)仅询问变量在集合的整个二维相关性中的部分角色(系数);而规范分析只是在下面询问在第一个相关维度和第二个相关维度中变量的部分角色是什么。

因此,规范相关分析是将多元线性回归加深到DV和IV之间关系的潜在结构。判别分析是典范相关分析的一种特例确切地看方法)。因此,这是关于多于两个组的一般情况下LDA与线性回归的关系的答案。

请注意,我的回答根本没有将LDA视为分类技术。我只是在讨论LDA作为潜在提取技术。分类是LDA的第二个独立阶段(我在这里进行了描述)。@Michael Chernick在他的回答中专注于此。


为什么我需要“规范相关分析”,它在这里做什么?谢谢。
zca0 2012年

1
+1(很久以前)。您是否知道参考文献(详细讨论)MANOVA / CCA / X与组虚拟人Y的矩阵和LDA之间的回归(对于两个以上的组而言)?我现在正在研究这个主题,我想我已经或多或少地想出了这个问题,但是当我寻找regression formulation of LDA它时,发现某些东西出奇的困难-在2000年以后有多篇研究论文发表说,这样的表述不存在或试图建议一个。也许有一个很好的参考文献?
变形虫说恢复莫妮卡

3
嗯..只是几个文件来快速介意:Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple RegressionW. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal ScalingOlcay Kursun et al. Canonical correlation analysis using within-class coupling。如果您无法在互联网上找到它们,可以发送给您。如果您找到更多更好的资源-请让我们知道。
ttnphns

1
我的说法完全并不意味着您可以获得仅具有回归(MANOVA)结果的CCA系数。我是说MANOVA是同一分析企业的“表面”层,而CCA是更多的“深层”层。我没有说它们是同义词,或者说一个是另一种的特定情况。
ttnphns

1
我懂了。我决定在此处发布另一个答案,提供LDA /回归等效项的数学细节。
变形虫说恢复莫妮卡

11

这是对Efron的一篇论文的参考:1975年,与标准判别分析相比,逻辑回归的效率

另一篇相关论文是Ng和Jordan,2001年,关于判别式与生成式分类器:逻辑回归和朴素贝叶斯的比较。这里是Xue&Titterington在 2008年对此发表评论的摘要,其中提到了奥尼尔与他的博士学位论文相关的论文:

比较生成分类器和区分分类器是一个永恒的话题。Ng和Jordan(NIPS 841 --- 848,2001)基于朴素贝叶斯分类器和线性Logistic回归之间的理论和经验比较,对这一主题做出了重要贡献。以及关于训练集大小的判别式分类器。在本文中,我们的经验和模拟研究作为其工作的补充,表明两种截然不同的制度可能并不那么可靠。此外,对于现实世界的数据集,到目前为止,尚无理论上正确,通用的标准来在观测方法的判别和生成方法之间进行选择X进入类; 选择取决于我们对 p y | x p x y 规范正确性的相对信心。ÿpÿ|Xp(x,y 用于数据。这在某种程度上可以说明为什么Efron(J Am Stat Assoc 70(352):892 --- 898,1975)和O'Neill(J Am Stat Assoc 75(369):154 --- 160,1980) )在没有模型错误指定的情况下更喜欢基于法线的线性判别分析(LDA),但其他经验研究则更喜欢线性对数回归。此外,我们建议,假设使用通用对角协方差矩阵(LDA)的LDA或朴素贝叶斯分类器和线性对数回归的配对可能都不是完美的,因此对于从LDA之间的比较得出的任何主张可能都不可靠或将朴素的贝叶斯分类器和线性逻辑回归推广到所有生成性和区分性分类器。

您可以在网上找到许多与此相关的其他参考。


对于逻辑回归与LDA的(现在已由OP澄清)的许多参考文献,+ 1。
2012年

1
这里是由雅罗斯拉夫Bulatov在Quora上生成和判别分类的另一个比较:quora.com/...
Pardis

也是一个相关主题,stats.stackexchange.com
q /

7

该答案的目的是解释线性判别分析(LDA)与多元线性回归(MLR)之间的确切数学关系。事实证明,减少秩次回归(RRR)提供了正确的框架。

我们将显示LDA等效于数据矩阵上的白化类别指标矩阵的RRR 。


符号

假设为矩阵,数据点为行,列变量。每个点都属于类别或组之一。点属于类编号。 n × d x i k x i g i Xn×dxikxig(i)

让为指示器矩阵编码组成员如下:如果属于类别,和,否则。类有数据点;当然。 n × k G i j = 1 x i j G i j = 0 n j j n j = nGn×kGij=1xijGij=0njjnj=n

我们假设数据是居中的,因此全局平均值等于零,。令为类的均值。μ Ĵ Ĵμ=0μjj

LDA

总散点矩阵可分解为类间和类内散点矩阵的总和,定义如下: 可以验证。LDA搜索具有最大组间方差和最小组内方差的判别轴。具体来说,第一个判别轴是最大化的单位矢量和第一个判别式轴堆叠在一起形成矩阵Ç bC=XXÇ=c ^b+c ^瓦特瓦特瓦特Çb瓦特/瓦特Ç瓦特瓦特pw ^大号大号d=TR w ^ Ç bw ^ w ^

Cb=jnjμjμjCw=(xiμg(i))(xiμg(i)).
C=Cb+CwwwCbw/(wCww)pW应该最大化跟踪
LLDA=tr(WCbW(WCwW)1).

假设为满秩,则LDA解是的特征向量矩阵(按特征值降序排列)。W L D A C 1 w C bCwWLDACw1Cb

这是通常的故事。现在让我们做两个重要的观察。

首先,类内散布矩阵可以用总散布矩阵代替(最终,因为最大化等同于最大化),的确很容易看出具有相同的特征向量。b /b + w C 1 C bb/wb/(b+w)C1Cb

其次,类间散布矩阵可以通过上面定义的组成员矩阵表示。实际上,是组和的矩阵。要获得分组均值的矩阵,应将其乘以对角矩阵,对角矩阵的对角线为;由。因此,组均值的矩阵为(sapienti将注意到这是一个回归公式)。要获得我们需要获取由相同对角线矩阵加权的散布矩阵,从而获得 如果所有相同且等于Ñ Ĵ ģģ ģģ - 1 g ^X Ç b C ^ b = Xģ ģģ - 1 g ^XÑ Ĵ Xģ ģX /GXnjGG(GG)1GXCb

Cb=XG(GG)1GX.
njm(“平衡数据集”),则此表达式简化为。XGGX/m

我们可以定义归一化指标矩阵为,其中为。然后,对于这两种,平衡和非平衡数据集,所述表达是简单地。请注意,在一定程度上是变白的指标矩阵:。 1/G~ ģ1C ^b=Xģ ģXģģ =g ^g ^ģ-1 / 21/njG1Cb=XG~G~XG~G~=G(GG)1/2

回归

为简单起见,我们将从平衡数据集的情况开始。

考虑在上的线性回归。它发现最小化。在应为给定等级的约束下,缩减秩回归的效果相同。如果是这样,则可以写为,其中和具有列。可以证明,通过保留第一列并添加额外的列,可以从秩解中获得秩二解。X ģ - X 2 p = d ˚Fd ˚F pGXBGXB2BpBB=DFDFp

为了建立LDA与线性回归之间的联系,我们将证明与。W L D ADWLDA

证明很简单。对于给定的,可以通过回归找到最佳:。将其插入损失函数,我们得到可以写成使用身份跟踪。经过简单的操作,我们得出回归等效于最大化(!)以下可怕的跟踪:实际上只不过是DFF=(DXXD)1DXG

GXD(DXXD)1DXG2,
A2=tr(AA)
tr(DXGGXD(DXXD)1),
=tr(DCbD(DCD)1)/mLLDA.

这样就完成了证明。对于不平衡的数据集,我们需要将替换为。GG~

可以类似地表明,将脊正则化添加到降秩回归中等同于正则化LDA。

LDA,CCA和RRR之间的关系

在他的回答中,@ ttnphns与规范相关分析(CCA)有关。实际上,可以证明LDA与和之间的CCA等效。此外,任何之间CCA和可以写为RRR预测白化从。其余部分由此得出。XGYXYX

参考书目

很难说谁应该为上面介绍的而功劳。

Cai等人最近发表了一篇会议论文。(2013)关于等价的低秩回归和基于线性判别分析的回归,它提供了与上述完全相同的证明,但给人的印象是他们发明了这种方法。绝对不是这样。Torre写了一篇关于如何将大多数常见线性多元方法视为减少秩回归的详细论述,请参见《成分分析的最小二乘框架》(A Least-Squares Framework for Component Analysis),2009年;以及下一本书《成分分析方法的统一》,2013年。他提出了相同的论点,但也未提供任何参考。教材《现代多元统计技术》中也对此材料进行了介绍。 (2008)由Izenman提出,他于1975年引入了存款准备金率。

LDA和CCA之间的关系显然可以追溯到Bartlett,1938年,多元回归理论的其他方面-这是我经常遇到的参考(但未验证)。在Izenman,1975,多元线性模型的减少秩回归中描述了CCA和RRR之间的关系。因此,所有这些想法已经存在了一段时间。


向我+1,以获取详细信息,参考我的答案并在此处介绍存款准备金(提前投票,因为在我坐下来撕裂所有宏伟/可成形的代数之前,它会花费一些未知的时间!)。
ttnphns

0

线性回归和线性判别分析有很大的不同。线性回归将因变量与一组独立的预测变量相关联。想法是在最适合数据的参数中找到线性函数。它甚至不必在协变量中是线性的。另一方面,线性判别分析是将对象分类的过程。对于两类问题,它试图找到最佳的分离超平面,以将各组划分为两个类别。这里最好的意思是它使作为误差率线性组合的损失函数最小化。对于三个或更多组,它找到最佳的超平面集(对于k类问题,k-1)。在判别分析中,hypererplanes在特征变量中是线性的。

两者之间的主要相似之处是标题中的线性术语。


抱歉,我写错了。应该回归和LDA。我看到了一些有关通过回归的线性判别式的文章,但我不知道它是如何工作的。我认为两个类别的LDA和逻辑回归有一定关系,但不能很清楚地说明它们是什么。对于两个以上的班级,我不知道是否存在任何关系。
zca0'7

1
是的,逻辑回归与线性判别分析之间存在关联。埃夫隆(Efron)和他的学生特里·奥尼尔(Terry O'Neilll)在1970年代后期撰写了有关此内容的文章。我将尝试找到指向参考的链接。
Michael R. Chernick

2
这是有关简历的相关问题和解答。stats.stackexchange.com/questions/14697/…–
Michael R.

-1是因为LDA与回归之间实际上存在着深厚的关系,正如@ttnphns和我自己在我们的答案中所解释的那样。
变形虫说莫妮卡(Monica)恢复2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.