ANOVA比较多个组的平均值与ANOVA比较嵌套模型之间有什么关系?


12

到目前为止,我已经看到ANOVA以两种方式使用:

首先,在我的介绍性统计文本中,引入了ANOVA作为比较三个或更多组均值的一种方法,是对成对比较的改进,目的是确定一种均值是否具有统计学上的显着差异。

第二,在我的统计学习课文中,我已经看到ANOVA用于比较两个(或多个)嵌套模型,以确定使用模型2预测变量子集的模型1是否同样适合数据,或者是否完整模型2是上乘的。

现在,我认为这两者在某种程度上实际上是非常相似的,因为它们都在使用ANOVA测试,但是从表面上看,它们对我来说似乎完全不同。对于第一个方法,第一个用法比较三个或更多组,而第二个方法只能用于比较两个模型。有人请介意阐明这两种用途之间的联系吗?


3
简要地说,我认为第二个“方差分析”根本不是方差分析(如果您阅读en.wikipedia.org/wiki/Analysis_of_variance,则不会看到嵌套模型比较的任何内容)。这是一个en.wikipedia.org/wiki/F-test,它在R中作为anova()函数实现,因为第一个真实的ANOVA也使用了F-test。这导致术语混乱。
变形虫说莫妮卡(Monica)恢复工作

谢谢,我想你真是头疼!我没有考虑到该anova()功能可能不仅仅是ANOVA。这篇文章支持您的结论:stackoverflow.com/questions/20128781/f-test-for-two-models-in-r
奥斯丁

1
一位研究生统计学家告诉我,ANOVA作为多样本检验与ANOVA作为嵌套模型至上检验是同一回事。根据我的理解,同一件事意味着我们将没有模型或更简单的模型产生的残差之和(或均值)与从模型产生的残差进行比较,并且假设满足假设,则F检验适用于两种情况。我尝试的答案绝对是关于此的。我本人有兴趣了解至少一个与零不同的流明系数(一个模型的F统计量)与残差之和之间的关系。
Alexey Burnakov

Answers:


11

在我的理解中,ANOVA的抽象直觉如下:一个分解观察变量在各个方向上的方差源并研究各自的贡献。更准确地说,是将身份图分解为投影的总和,并研究哪些投影/方向对解释方差有重要贡献,而哪些没有。理论基础是科克伦定理

为简化起见,我将OP提到第二种形式转换为上述框架。随后,我将第一种形式解释为第二种形式的特殊情况。

让我们考虑具有解释变量的回归模型(完整模型),并将其与具有K - J个变量的受限模型进行比较。WLOG,完整模型的最后J个变量不包括在受限模型中。方差分析回答的问题是ķķ-ĴĴ

“如果我们包含其他变量,是否可以解释观察到的变量中更多的方差”Ĵ

通过比较前变量,下一个J变量和余数/无法解释的部分(平方的残差总和)的方差贡献来回答此问题。该分解(例如从科克伦定理中获得)用于构建F检验。因此,通过包含更多变量来分析受限模型的残差平方和(对应于H 0与最后J个变量有关的所有系数均为零)的减少(通过包含更多变量),并获得F统计量 R S S r e s t r - Rķ-ĴĴH0 Ĵ 如果该值足够大,则由附加J变量解释的方差是显着的。

[R小号小号[RËsŤ[R-[R小号小号FüĴ[R小号小号Füñ-ķ
Ĵ

现在,OP提到第一种形式被解释为第二种形式的特殊情况。考虑三个不同的组A,B,和C的装置μ ,和μ Ç。的ħ 0μ = μ = μ Ç通过比较方差测试通过在截距的回归(受限模型)与方差解释由全模型含有截距,A组的虚设和解释B组的哑元。所得的F统计量 R S S i n tμ一种μμCH0μ一种=μ=μC等效于Wikipedia上的ANOVA检验。分母等于组内的变化,分子等于组间的变化。如果组间的差异大于组内的差异,则人们会否定所有均值均相等的假设。

[R小号小号一世ñŤË[RCËpŤ-[R小号小号dü一世Ës2[R小号小号dü一世Ësñ-3

+1。我想知道您是否同意我在此处的评论中对术语的评论:stats.stackexchange.com/questions/315979/#comment602611_315979
变形虫说莫妮卡(Monica)恢复职权

我绝对同意在术语上有很多困惑;-)。口语化地,我仅将ANOVA与OP的第一种形式相关联。我只是看了谢菲的书《方差分析》,其中提到了“嵌套设计”。
bmbb

@bmbb,我要在您的最后一条评论中添加:一个简单的情况,我们比较嵌套的lm模型,其中一个仅是拦截。关于带有截距的模型给我留下深刻印象的事实是,当我们提到其残差时,我们的确指的是其方差,因为残差是相对于变量均值(即模型的截距)计算的,并且它们与样本平均值。因此,即使我们正式分析残差,在嵌套模型的情况下,我们仍然会进行方差分析。
Alexey Burnakov

6

如果您正在执行单向方差分析以测试组之间是否存在显着差异,则隐式地在比较两个嵌套模型(因此只有一层嵌套,但仍处于嵌套状态)。

这两个模型是:

  • ÿ一世Ĵ一世Ĵβ^0
    ÿ一世Ĵ=β^0+ϵ一世
  • 模型1:通过组的估计平均值对值进行建模。

    βĴ^

    ÿ一世=β^0+β^Ĵ+ϵ一世

比较均值和对等模型与嵌套模型的示例:让我们从虹膜数据集中获取隔片长度(cm)(如果我们使用所有四个变量,我们实际上可以像Fisher在1936年所做的那样进行LDA或MANOVA)

观察到的总数和组均值是:

μŤØŤ一种=5.83μsËŤØs一种=5.01μvË[Rs一世CØØ[R=5.94μv一世[RG一世ñ一世C一种=6.59

模型形式:

模型1: ÿ一世Ĵ=5.83+ϵ一世模型2: ÿ一世Ĵ=5.01+[00.931.58]Ĵ+ϵ一世

ϵ一世2=102.1683

ϵ一世2=38.9562

方差分析表将类似于(并隐式计算组的平方和之间的差,即表中具有2个自由度的63.212):

> model1 <- lm(Sepal.Length ~ 1 + Species, data=iris)
> model0 <- lm(Sepal.Length ~ 1, data=iris)
> anova(model0, model1)
Analysis of Variance Table

Model 1: Sepal.Length ~ 1
Model 2: Sepal.Length ~ 1 + Species
  Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
1    149 102.168                                  
2    147  38.956  2    63.212 119.26 < 2.2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

F=[R小号小号d一世FFË[RËñCËdFd一世FFË[RËñCË[R小号小号ñËwdFñËw=63.212238.956147=119.26

示例中使用的数据集:

三种不同种类的鸢尾花的花瓣长度(厘米)

Iris setosa            Iris versicolor      Iris virginica
5.1                    7.0                    6.3
4.9                    6.4                    5.8
4.7                    6.9                    7.1
4.6                    5.5                    6.3
5.0                    6.5                    6.5
5.4                    5.7                    7.6
4.6                    6.3                    4.9
5.0                    4.9                    7.3
4.4                    6.6                    6.7
4.9                    5.2                    7.2
5.4                    5.0                    6.5
4.8                    5.9                    6.4
4.8                    6.0                    6.8
4.3                    6.1                    5.7
5.8                    5.6                    5.8
5.7                    6.7                    6.4
5.4                    5.6                    6.5
5.1                    5.8                    7.7
5.7                    6.2                    7.7
5.1                    5.6                    6.0
5.4                    5.9                    6.9
5.1                    6.1                    5.6
4.6                    6.3                    7.7
5.1                    6.1                    6.3
4.8                    6.4                    6.7
5.0                    6.6                    7.2
5.0                    6.8                    6.2
5.2                    6.7                    6.1
5.2                    6.0                    6.4
4.7                    5.7                    7.2
4.8                    5.5                    7.4
5.4                    5.5                    7.9
5.2                    5.8                    6.4
5.5                    6.0                    6.3
4.9                    5.4                    6.1
5.0                    6.0                    7.7
5.5                    6.7                    6.3
4.9                    6.3                    6.4
4.4                    5.6                    6.0
5.1                    5.5                    6.9
5.0                    5.5                    6.7
4.5                    6.1                    6.9
4.4                    5.8                    5.8
5.0                    5.0                    6.8
5.1                    5.6                    6.7
4.8                    5.7                    6.7
5.1                    5.7                    6.3
4.6                    6.2                    6.5
5.3                    5.1                    6.2
5.0                    5.7                    5.9

1
+1,但是将数据表格式化为乳胶表是一个非常糟糕的做法!!一个人不能在任何地方复制粘贴!如果您确实要包含数据,为什么不将其格式化为代码块?但是在这种情况下,您也可以链接到包含数据的Wikipedia Fisher Iris文章。
变形虫说莫妮卡(Reonica Monica)恢复


1
我不认为模糊术语是个大问题。在我看来,我实际上从来没有把方差分析看作是组内和组间方差的比较,而总是把心智投射到两个模型的比较上。我不认为这是个大问题,因为从某种意义上说,f分布是两个独立的卡方分布变量的比率,在某种意义上是变化的比率。将f检验应用到研究嵌套模型中可以比较变异,分析变异,因此ANOVA在我看来似乎还可以(我目前正在尝试查找一些历史参考资料)。
Sextus Empiricus

我并不是说这是一个问题。但是我想知道“方差分析”一词是指仅比较R中的嵌套模型的F检验(正如我在我的链接评论中所建议的那样)还是它是更广泛接受的术语。我没有检查教科书,因此我的证据仅来自维基百科。
变形虫说莫妮卡(Monica)恢复工作

在费舍尔(Fisher)的1925年《研究人员统计方法》中,当他解释“方差分析”时,他列举了一些将该技术应用于回归线的示例(但没有嵌套模型)。
Sextus Empiricus

1

在多个模型之间进行比较时,使用ANOVA进行比较意味着测试至少在高阶模型中使用的系数(在低阶模型中不存在)中的至少一个系数是否明显不同于零。

这相当于说,高阶模型的残差之和明显小于低阶模型的残差之和。

因为使用的基本方程是

MSM/MSE

其中,MSM是低阶模型的残差平方的平均值(其中最低阶是目标变量的平均值,即截距)。

http://www.stat.yale.edu/Courses/1997-98/101/anovareg.htm

您可以阅读有关简历的类似主题,例如

如何使用方差分析进行两个模型的比较?


恕我直言,这不能回答问题。
变形虫说莫妮卡(Monica)恢复职权

1

从我学到的

您可以使用ANOVA表来确定您的解释变量是否实际上对响应变量有重大影响,从而适合相应的模型。

X1个X2X2

ÿ=β0+β1个X1个+β2X2+ϵ
ÿ=β0+β1个X1个+ϵ

X1个

这是我在R中工作的一个项目的ANOVA输出示例,在这里我测试了两个模型(一个带有可变天数,一个没有可变天数):

在此处输入图片说明

如您所见,F检验的相应p值为0.13,大于0.05。因此,我们不能拒绝Days对Y没有影响的零假设。因此,我选择模型1而不是模型2。


恕我直言,这不能回答问题。
变形虫说莫妮卡(Monica)恢复职权
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.