在几个地方,我看到一种说法,即MANOVA就像ANOVA加上线性判别分析(LDA)一样,但是它总是以挥舞自如的方式进行的。我想知道这到底是什么意思。
我找到了各种各样的教科书,描述了MANOVA计算的所有细节,但是似乎很难找到不是统计学家的人可以进行好的一般讨论(更不用说图片了)。
在几个地方,我看到一种说法,即MANOVA就像ANOVA加上线性判别分析(LDA)一样,但是它总是以挥舞自如的方式进行的。我想知道这到底是什么意思。
我找到了各种各样的教科书,描述了MANOVA计算的所有细节,但是似乎很难找到不是统计学家的人可以进行好的一般讨论(更不用说图片了)。
Answers:
既MANOVA和LDA单向开始分解的总散射矩阵到类内散布矩阵w ^和类间散矩阵乙,使得Ť = w ^ + 乙。注意,这是完全类似于单向ANOVA如何分解求和的平方总Ť成类内和类间总和-平方的:Ť = 乙+ w ^。然后在ANOVA中计算比率B / W并用于找到p值:该比率越大,p值越小。MANOVA和LDA组成一个类似的多元量W − 1。
从这里开始,他们是不同的。MANOVA的唯一目的是测试所有组的均值是否相同。这个零假设意味着大小应与W相似。所以MANOVA执行的特征分解w ^ - 1个乙并发现它的特征值λ 我。现在的想法是测试它们是否足够大以拒绝null。有四种常见的方式,形成一个标量统计出了一整套的特征值λ 我。一种方法是取所有特征值之和。另一种方法是采用最大特征值。在每种情况下,如果所选统计量足够大,则将拒绝原假设。
相反,LDA执行的特征分解,并查看特征向量(不是特征值)。这些特征向量在可变空间中定义方向,称为判别轴。将数据投影到第一个判别轴上具有最高的分类间隔(以B / W衡量);进入第二高-第二高; 当使用LDA进行降维时,可以将数据投影到例如前两个轴上,而其余的轴将被丢弃。
另请参见@ttnphns在另一个涵盖几乎相同领域的线程中的出色解答。
让我们考虑一个因变量且k =组观察值(即一个具有三个水平的因子)。我将采用众所周知的Fisher的Iris数据集,并只考虑隔片的长度和隔片的宽度(使其成为二维)。这是散点图:
我们可以从分别计算间隔长度和宽度的方差分析开始。想象一下在x和y轴上垂直或水平投影的数据点,并执行1向ANOVA测试三组的均值是否相同。我们得到和p = 10 - 31为萼片长度,和˚F 2 ,147 = 49和p = 10 -为萼片宽度。好的,所以我的示例非常糟糕,因为三个组在两个度量上的p值都显着不同,但无论如何我还是会坚持下去。
现在,我们可以执行LDA来找到最大程度地分隔三个群集的轴。如上所述,我们计算完整的散射矩阵,类内散射矩阵W和类间散射矩阵B = T - W,并找到W - 1 B的特征向量。我可以在同一个散点图上绘制两个特征向量:
虚线是判别轴。我绘制了任意长度的图,但长轴显示的是特征值较大的特征向量(4.1),而较短的轴是特征值较小的特征向量(0.02)。注意它们不是正交的,但是LDA的数学保证了这些轴上的投影具有零相关性。
。请注意,该值低于我们之前使用任何ANOVA所获得的值,直觉是MANOVA的p值在两个判别轴上“组合”了使用ANOVA获得的两个p值。
“绿色”级(大绿点代表这七个相同分):
在我看来,这现在是不同机器学习社区和统计社区如何处理同一事物的示例性案例之一。机器学习的每本教科书都涵盖LDA,显示漂亮的图片等,但它甚至都不会提到MANOVA(例如Bishop,Hastie和Murphy)。可能是因为那里的人们对LDA 分类的准确性(大致对应于效应大小)更感兴趣,而对组差异的统计意义不感兴趣。另一方面,有关多变量分析的教科书将讨论MANOVA ad nauseam,提供大量列表数据(arrrgh),但很少提及LDA,甚至很少显示任何图表(例如安德森或哈里斯 ; 但是,Rencher&Christensen do和Huberty&Olejnik甚至被称为“ MANOVA和判别分析”。
阶乘MANOVA更加令人困惑,但是值得考虑,因为它与LDA有所不同,即“阶乘LDA”并不真正存在,并且阶乘MANOVA不直接对应于任何“常规LDA”。
在此图上,所有六个“单元”(我也将它们称为“组”或“类”)都很好地分隔开了,当然在实践中很少发生这种情况。请注意,很明显,这两个因素都具有重要的主效应,并且还具有显着的交互作用(因为右上角的组向右移动;如果我将其移至其“网格”位置,则不会有互动效果)。
在这种情况下,MANOVA计算如何工作?
MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positive
。MANOVA当然不知道我们在做LDA。MANOVA仅比ANOVA消耗更多的df,因为它是2维测试,因此p值的幂必须为-54而不是-55。
W^-1 B
LDA 相同的矩阵的关键。LDA从中构造出潜在变量(判别式)。MANOVA不会;但是,它更全面地研究了上述矩阵,并计算了该矩阵的各种统计信息(例如Pillai的跟踪,Hotteling的跟踪),并以此为基础进行测试。
machine learning
在第一次听到声音之前就学习了统计数据分析。然后,我阅读的文章与MANOVA一起讨论了LDA。