MANOVA与LDA有何关系?


18

在几个地方,我看到一种说法,即MANOVA就像ANOVA加上线性判别分析(LDA)一样,但是它总是以挥舞自如的方式进行的。我想知道这到底是什么意思。

我找到了各种各样的教科书,描述了MANOVA计算的所有细节,但是似乎很难找到不是统计学家的人可以进行好的一般讨论(更不用说图片了)。


2
我自己的LDA相对ANOVA和MANOVA的本地帐户是这个这个。也许他们挥舞着手,但是​​他们在某种程度上解决了您的话题。关键是“ LDA是潜入潜伏结构的MANOVA”。MANOVA是一个非常丰富的假设检验工具;它可以分析差异的潜在结构;该分析包括LDA。
ttnphns 2014年

1
@ttnphns,恐怕我之前的评论未发送(我忘了输入您的用户名),所以让我重复一遍:哇,非常感谢,您链接的答案似乎与我的问题非常相关,我一定错过了他们在我搜索之前发布。需要花费一些时间来消化它们,之后我可能会再找您,但是也许您现在已经可以向我指出一些涉及这些主题的论文/书籍了?我喜欢看到你的链接答案的风格这东西的详细讨论。
变形虫说恢复莫妮卡

只是一个古老而经典的帐户webia.lip6.fr/~amini/Cours/MASTER_M2_IAD/TADTI/HarryGlahn.pdf。顺便说一句,我到目前为止还没有读过。另一篇相关文章dl.acm.org/citation.cfm?id=1890259
ttnphns 2014年

@ttnphns:谢谢。我自己写了一个问题的答案,基本上为您在LDA / MANOVA上的出色链接答复提供了一些插图和一个具体示例。我认为他们很好地互补。
变形虫说恢复莫妮卡2014年

Answers:


21

简而言之

既MANOVA和LDA单向开始分解的总散射矩阵到类内散布矩阵w ^和类间散矩阵,使得Ť = w ^ + 。注意,这是完全类似于单向ANOVA如何分解求和的平方总Ť成类内和类间总和-平方的:Ť = + w ^。然后在ANOVA中计算比率B / W并用于找到p值:该比率越大,p值越小。MANOVA和LDA组成一个类似的多元量W 1TWBT=W+BTT=B+WB/WW1B

从这里开始,他们是不同的。MANOVA的唯一目的是测试所有组的均值是否相同。这个零假设意味着大小应与W相似。所以MANOVA执行的特征分解w ^ - 1个并发现它的特征值λ 。现在的想法是测试它们是否足够大以拒绝null。有四种常见的方式,形成一个标量统计出了一整套的特征值λ 。一种方法是取所有特征值之和。另一种方法是采用最大特征值。在每种情况下,如果所选统计量足够大,则将拒绝原假设。BWW1Bλiλi

相反,LDA执行的特征分解,并查看特征向量(不是特征值)。这些特征向量在可变空间中定义方向,称为判别轴。将数据投影到第一个判别轴上具有最高的分类间隔(以B / W衡量);进入第二高-第二高; 当使用LDA进行降维时,可以将数据投影到例如前两个轴上,而其余的轴将被丢弃。W1BB/W

另请参见@ttnphns在另一个涵盖几乎相同领域的线程中的出色解答

让我们考虑一个因变量且k =M=2组观察值(即一个具有三个水平的因子)。我将采用众所周知的Fisher的Iris数据集,并只考虑隔片的长度和隔片的宽度(使其成为二维)。这是散点图:k=3

Fisher Iris散点图

我们可以从分别计算间隔长度和宽度的方差分析开始。想象一下在x和y轴上垂直或水平投影的数据点,并执行1向ANOVA测试三组的均值是否相同。我们得到p = 10 - 31为萼片长度,和˚F 2 147 = 49p = 10 -F2,147=119p=1031F2,147=49为萼片宽度。好的,所以我的示例非常糟糕,因为三个组在两个度量上的p值都显着不同,但无论如何我还是会坚持下去。p=1017

现在,我们可以执行LDA来找到最大程度地分隔三个群集的轴。如上所述,我们计算完整的散射矩阵,类内散射矩阵W和类间散射矩阵B = T - W,并找到W - 1 B的特征向量。我可以在同一个散点图上绘制两个特征向量:TWB=TWW1B

费舍尔·艾里斯LDA

虚线是判别轴。我绘制了任意长度的图,但长轴显示的是特征值较大的特征向量(4.1),而较短的轴是特征值较小的特征向量(0.02)。注意它们不是正交的,但是LDA的数学保证了这些轴上的投影具有零相关性。

F=305p=1053p=105

W1BB/WF=B/W(Nk)/(k1)=4.1147/2=305N=150k=3

λ1=4.1λ2=0.02p=1055。请注意,该值低于我们之前使用任何ANOVA所获得的值,直觉是MANOVA的p值在两个判别轴上“组合”了使用ANOVA获得的两个p值。

F(8,4) “绿色”级(大绿点代表这七个相同分):

Fisher Iris LDA修改

p=1055p=0.26p=10545p0.05p

MANOVA vs LDA作为机器学习vs.统计

在我看来,这现在是不同机器学习社区和统计社区如何处理同一事物的示例性案例之一。机器学习的每本教科书都涵盖LDA,显示漂亮的图片等,但它甚至都不会提到MANOVA(例如BishopHastieMurphy)。可能是因为那里的人们对LDA 分类的准确性(大致对应于效应大小)更感兴趣,而对组差异的统计意义不感兴趣。另一方面,有关多变量分析的教科书将讨论MANOVA ad nauseam,提供大量列表数据(arrrgh),但很少提及LDA,甚至很少显示任何图表(例如安德森哈里斯 ; 但是,Rencher&Christensen do和Huberty&Olejnik甚至被称为“ MANOVA和判别分析”。

阶乘因子

阶乘MANOVA更加令人困惑,但是值得考虑,因为它与LDA有所不同,即“阶乘LDA”并不真正存在,并且阶乘MANOVA不直接对应于任何“常规LDA”。

32=6

阶乘MANOVA

在此图上,所有六个“单元”(我也将它们称为“组”或“类”)都很好地分隔开了,当然在实践中很少发生这种情况。请注意,很明显,这两个因素都具有重要的主效应,并且还具有显着的交互作用(因为右上角的组向右移动;如果我将其移至其“网格”位置,则不会有互动效果)。

在这种情况下,MANOVA计算如何工作?

WBABAW1BA

BBBAB

T=BA+BB+BAB+W.
B由于这些因素不再正交,因此不能唯一地分解为三个因素贡献的总和;这类似于在方差分析中对I / II / III型SS的讨论。]

BAWA=TBA

w ^-1个一种


+1,这是一个很好的解释。我更改B^-1 WW^-1 B。您将判别式作为轴的图片与我自己的相似;我相信您使用了相同的“根据归一化特征向量的非正交旋转”方法。
ttnphns 2014年

我发现有些朦胧MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positive。MANOVA当然不知道我们在做LDA。MANOVA仅比ANOVA消耗更多的df,因为它是2维测试,因此p值的幂必须为-54而不是-55。
ttnphns 2014年

我怀疑应该以p值来表示。取而代之的是,MANOVA分析与W^-1 BLDA 相同的矩阵的关键。LDA从中构造出潜在变量(判别式)。MANOVA不会;但是,它更全面地研究了上述矩阵,并计算了该矩阵的各种统计信息(例如Pillai的跟踪,Hotteling的跟踪),并以此为基础进行测试。
ttnphns 2014年

与LDA(您的第二张图片)相比,这将是MANOVA(我想您可能希望将其添加到答案中)的隐喻,该图将是3个质心通过虚线连接到大质心的图。
ttnphns 2014年

最后,我认为您没有权衡如此高的统计量和机器学习差异。我machine learning在第一次听到声音之前就学习了统计数据分析。然后,我阅读的文章与MANOVA一起讨论了LDA。
ttnphns 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.