与线性回归相比,为什么将ANOVA当作一种不同的研究方法来教授/使用?


91

使用适当的虚拟变量,ANOVA等效于线性回归。无论使用ANOVA还是线性回归,结论均保持不变。

鉴于它们的等效性,是否有任何理由使用ANOVA代替线性回归?

注意:我对了解使用ANOVA而不是线性回归的技术原因特别感兴趣。

编辑

这是一个使用单向方差分析的示例。假设您想知道男性和女性的平均身高是否相同。为了检验您的假设,您需要从男性和女性的随机样本(每个样本为30个)中收集数据,并进行ANOVA分析(即,性别和错误的平方和)来确定一种效应是否存在。

您还可以使用线性回归对此进行测试,如下所示:

定义: 如果受访者是男性,则否则为。 其中:Gender=10

Height=Intercept+βGender+error
errorN(0,σ2)

然后检验是否等效于您的假设。β=0


2
如果我没记错的话,线性回归是对系数的估计,该系数定义了从X到Y的良好线性映射。ANOVA是一种测试,用以了解当Y取两个不同值时X中是否存在显着差异。您能解释一下为什么您认为它们相同吗?
罗宾吉拉德

28
对于线性回归模型的一个特殊子组,ANOVA可以看作是“语法糖”。不是统计学家的研究人员经常通过训练使用ANOVA。他们现在已经“制度化”,很难将其转换为使用更一般的表示形式;-)
suncoolsu 2010年

3
反对您的评论,但如果这对他们来说是语法糖,那么实验家甚至比我想的还要疯狂!哪个版本更直观...。关于 ANOVA假设检验:解释方差与无法解释方差的比率是否足够高?对回归模型的项进行T检验:的影响是否充分不同于零?而且,使用后一种公式,您还将获得变化的方向。而且,如果必须转换数据,则可以将参数估计值反转换为物理上有意义的数量。不像SS。βββ
2013年

Answers:


55

作为一名经济学家,通常讲授关于线性回归的方差分析(ANOVA)(例如,在Arthur Goldberger的“计量经济学课程”中)。经济学家/计量经济学家通常将方差分析视为无趣的方法,而是倾向于直接使用回归模型。从线性(甚至广义线性)模型的角度来看,ANOVA将系数分配给批次,每个批次对应于ANOVA术语中的“变异源”。

通常,您可以使用回归复制从ANOVA中获得的推论,但并不总是使用OLS回归。需要多层模型来分析分层数据结构,例如“分割图设计”,其中将组间影响与组级误差进行比较,并将组内影响与数据级误差进行比较。盖尔曼的论文 [1]对此问题进行了详细介绍,并有效地指出,方差分析是一种重要的统计工具,出于自身的原因,仍应进行讲授。

特别是,盖尔曼(Gelman)认为,方差分析(ANOVA)是一种理解和构建多层模型的方法。因此,方差分析不是回归的替代方法,而是作为汇总复杂的高维推论和进行探索性数据分析的工具。

盖尔曼(Gelman)是一位受人尊敬的统计学家,应该相信他的观点。但是,线性回归可以很好地满足我所做的几乎所有经验工作,因此我坚信将其视为一点意义也没有。一些具有复杂研究设计(例如心理学)的学科可能会发现方差分析很有用。

[1] Gelman,A.(2005)。方差分析:为什么它比以往任何时候都重要(有讨论)。统计年鉴 33,1–53。doi:10.1214 / 009053604000001048


1
感谢Gelman参考。我会读他的论文。但是,我们不能使用经典的最大似然分析多级模型吗?我同意OLS对于多层模型效率低下/不合适。

3
@Srikant-处理多层数据的方法很多,而Gelman是该领域的“王者”。他的观点是,ANOVA是捕获复杂和分层数据结构或研究设计的关键特征的简单/清晰方法,而ANOVA是呈现关键结果的简单/清晰方法。从这个意义上讲,它的作用是互补的或探索性的。
Graham Cookson

1
+1是一个清晰明确的答案。第3段本质上是我作为生物学专业的本科生所讲授的内容,重点在于在ANOVA框架中结合连续和分类自变量的简易性。
弗雷亚·哈里森

23

我认为格雷厄姆的第二段是问题的核心。我怀疑这不是历史上的技术问题,可能是由于“ 研究人员的统计方法 ”的影响,以及在涉及离散因素而不是深入研究模型构建的实验分析中对非统计学家的教学/应用工具的易用性及相关工具。在统计中,通常将ANOVA视为回归的特殊情况。(我认为这类似于为什么生物统计学充满了无数的同名“测试”,而不是强调模型构建的原因。)


14

我应该说,当您应该使用一般线性模型时,有些人正在使用术语回归。我认为回归是涉及连续协变量的一瞥。当连续协变量与伪变量组合时,应称为协方差分析。如果仅使用伪变量,我们将glm的这种特殊形式称为方差分析。我认为方差分析具有明显的第二个含义,它是使用方差分解为模型项分量和误差项分量来测试glm中重要系数的过程。


2
(+1)在整个讨论中,我还立即注意到模棱两可的术语“回归”。
斯蒂芬·洛朗

1
(+1)GLM可能是区分不同含义的最佳方法。还应注意,在ANOVA的历史中,使用的计算程序模糊了OLS和ANOVA之间的关系。因此,命名可能会因历史原因而合理。
2013年

10

ANOVA可以与采用超过2个值(级别)的分类解释变量(因子)一起使用,并给出基本测试,即每个值的平均响应均相同。这避免了在这些级别之间进行多个成对t检验时的回归问题:

  • 在固定的5%显着性水平上进行多次t检验,会使其中大约5%给出错误的结果。
  • 这些测试不是相互独立的。比较A的水平与B的水平与将A的水平与C的水平相联系,因为在两个测试中都使用了A的数据。

最好对要测试的因子水平的不同组合使用对比度


1
您可能希望澄清这个答案;如所写,我看到3个问题。前两个有点挑剔,但仍应进行编辑,在本讨论中,第三个是实质性的。(1)方差分析只能用于两个组(尽管那时大多数人只是进行t检验)。(2)w /多个t检验将渐进地产生I型错误,误差为那些没有实际差异的对比的5%;将发生多少错误取决于有多少个空值是正确的。α=.05
gung

7
(3)您的答案暗示多重比较的问题适用于OLS回归,但如果进行正确,则不适用于OLS回归。在回归上下文中测试因子的正确方法是测试嵌套模型,其中将所有因子假人丢弃,而对包含所有因子假人的完整模型进行测试。该测试与ANOVA进行的测试相同。的确,您不应使用单个虚拟变量的测试(我怀疑这是您要在此处描述的内容)。
gung

3

假设您要比较两个以上的总体均值,那么您正在测试总体方差之间是否存在显着差异,然后您将使用F检验。

在回归分析中,您将在自变量和因变量之间建立模型。如果您有一个具有四个级别的自变量,则可以使用三个虚拟变量并运行回归模型。用于检验回归模型的重要性的回归模型的F检验与检验总体均值之间的差异时得到的F相同。如果运行逐步回归,则某些虚拟变量可能会从模型中删除,并且您的F值将与执行ANOVA测试时的F值不同。


5
这使方差分析成为测试过程,而回归则成为建模过程,您可以在其中进行测试。但是,无论是否在所有入门治疗中都强调这一点,方差分析也具有基础模型。因此,此答案不能捕捉到它们之间的任何区别。这个问题也没有得到解决,这就是为什么无论有多么强的相似性,他们都被区别对待。
Nick Cox
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.