如何证明阶乘方差分析中的误差项合理?


13

关于多元ANOVA的一个可能非常基本的问题。假设采用双向设计,我们同时测试主要效果A,B和交互作用A:B。在测试类型为I SS的A的主要效果时,效果SS的计算方式为差异,其中是仅具有截距的模型的残差平方误差和,和的RSS与因子A的模式添加。我的问题涉及错误术语的选择:- [R 小号小号1 - [R 小号小号RSS(1)RSS(A)RSS(1)RSS(A)

您如何证明此测试的误差项通常是从包含主效应和相互作用的完整模型A + B + A:B的RSS计算而来的?

FA=(RSS1RSSA)/(dfRSS1dfRSSA)RSSA+B+A:B/dfRSSA+B+A:B

...而不是从实际比较中从不受限制的模型中提取误差项(在上述情况下,RSS仅来自主要效应A):

FA=(RSS1RSSA)/(dfRSS1dfRSSA)RSSA/dfRSSA

这有所不同,因为在比较中,来自完整模型的误差项可能经常(并非总是)小于不受限制模型的误差项。似乎误差项的选择有些随意,仅通过添加/删除不是真正感兴趣的因素,但仍要更改误差项,就可以为所需的p值变化创造空间。

在以下示例中,即使效果SS的实际比较保持不变,A的F值也会根据整个模型的选择而发生很大变化。

> DV  <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+          56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+          43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)

> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1))                           # full model = unrestricted model (just A)
          Df  Sum Sq Mean Sq F value Pr(>F)
IV1        2  101.11  50.556  0.9342 0.4009
Residuals 42 2272.80  54.114

> anova(lm(DV ~ IV1 + IV2))                     # full model = A+B
          Df  Sum Sq Mean Sq F value   Pr(>F)    
IV1        2  101.11   50.56  1.9833   0.1509    
IV2        2 1253.19  626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61   25.49                     

> anova(lm(DV ~ IV1 + IV2 + IV1:IV2))           # full model = A+B+A:B
          Df  Sum Sq Mean Sq F value    Pr(>F)    
IV1        2  101.11   50.56  1.8102    0.1782    
IV2        2 1253.19  626.59 22.4357 4.711e-07 ***
IV1:IV2    4   14.19    3.55  0.1270    0.9717    
Residuals 36 1005.42   27.93

相同的问题适用于II型SS,通常适用于一般的线性假设,即适用于完整模型中受限模型和非受限模型之间的模型比较。(对于III型SS,不受限制的模型始终是完整模型,因此在那里不会出现问题)


我可能只是对您的问题感到困惑,但是为了测试类型1 SS 的效果,分母就是您在第二个表达式中使用的。通过第二个表达式计算运行输出中的F值。也就是说,如果您运行并将相应的值插入第二个表达式,则会得到。让我知道我是否完全想念您的问题。˚F = 0.9342Aanova(lm(DV ~ IV1))anova(lm(DV ~ 1))anova(lm(DV ~ IV1))F=0.9342

@MikeWierzbicki是正确的,如果完整模型仅包含IV1(第一个示例),则分母的两个表达式相同。但是,当完整模型包含其他效果时,即使模型比较(与类型1 SS相比)也不变,用于测试的分母也会发生变化。在这3个示例中,的均方根不变(在所有情况下,模型比较都相同),但均方根误差不变。当实际比较保持不变时,我对改变误差项的合理性感兴趣。AA~ 1~ IV1 + 1A
caracal

嘿@caracal,很高兴看到这么旧的答案突然被接受!:-)干杯。
变形虫说恢复莫妮卡

Answers:


4

这是一个非常老的问题,我相信@gung的答案非常好(+1)。但是由于@caracal并不完全令人信服,并且我也不完全遵循它的所有复杂性,因此我想提供一个简单的图来说明我如何理解该问题。


考虑一个双向方差分析(因子A具有三个级别,因子B具有两个级别),这两个因子显然都非常重要:

阶乘方差平方和

A因子的SS很大。因子B的SS小得多,但从上图可以看出,因子B仍然非常重要。

包含两个因子的模型的误差SS由六个高斯之一表示,当将因子B的SS与该误差SS进行比较时,测试将得出结论,因子B是显着的。

但是,仅包含因子B的模型的误差SS很大!将因子B的SS与这个巨大的误差SS进行比较肯定会导致B显得不重要。显然不是这样。

这就是为什么使用完整模型中的误差SS有意义的原因。


2

更新:为了阐明我在此处传递的观点,我添加了一些链接,这些链接指向我更充分讨论相关思想的地方。


F检验检查与某个因素相关的变异性(特别是均方值)是否大于偶然所期望的变异性。我们可以根据平方误差的总和来估计偶然发生的变化量,也就是,由于未知因素(与之相关)而导致的变化量。这些是您的残差,在考虑完您所知道的一切之后所剩下的。在您的示例中,包含残余误差,还包含由于已知因素而引起的可变性。尽管理论上将偶然地反弹到某种程度,但理论上该量并不受其他已知因素1的驱动。因此,使用是不合适的 S S A M S A M S A + B + A * BRSSASSAMSA作为F检验的分母。此外,使用可为您提供更大的功能,从而降低II型错误的可能性,并且不应夸大I型错误。 MSA+B+AB

您的问题还有其他问题。您提到并不总是最低的,在您的示例中,。这是因为交互实际上并不与其自身的任何可变性相关联。这出现是由于无非机会。有一个精确但有些复杂的公式,用于指定如果在模型中包含或排除不同因素时功率将如何变化。我没有触手可及的内容,但要旨很简单:当包含其他因素时,RSS会减少(为您提供更多功能),但是 M S A + B + A * B > M S A + B S S A * B = 14.19 d f RRSSfullMSA+B+AB>MSA+BSSAB=14.19dfR也会下降(产生更少的功率)。这种权衡的平衡基本上取决于与该因素关联的SS是真实的,还是仅由于偶然因素而确定,实际上,偶然性是通过因素是否显着2来粗略地指出的。但是,从模型中消除不重要的因素以获取正确的误差项在逻辑上等效于自动模型搜索过程,即使您没有自己的软件来自动完成该过程。您应该知道这样做有很多问题。这些问题和替代程序将在CV 3的其他地方进行讨论。

最后一个主题涉及不同类型的SS。首先,使用不同类型的SS并不能使您摆脱分析的逻辑依据。但是,此外,I-III型SS与另一个问题有关。在您的示例中,我收集到您的因子是正交的,即您进行了一个实验,其中为因子水平的每种组合分配了相等的n。但是,如果您进行观察性研究,或者存在辍学问题,则您的因素将相互关联。这样做的含义是,没有唯一的方法来划分SS,因此对于要生成的分析也没有唯一的答案。换句话说,当因子相关4时,各种类型的SS必须与F检验使用的可能分子不同4

1.请注意,对于多级模型,可以对一个因素进行理论化以包括其他因素的可变性,具体取决于模型的指定方式。我在这里讨论普通的方差分析,这似乎是您要问的问题。
2.请参阅:如何添加第二IV才能使第一IV重要?
3.请参阅:自动模型选择算法
4.请参阅:如何解释I型(顺序)方差分析和MANOVA?


1
BA:B

1
+1,我刚刚发布了一个答案,试图为您的第一段大段落提供插图。
变形虫说莫妮卡(

0

理由是与A模型相比,因子A解释了A + B模型中无法解释的变化的较大百分比,因为因子B解释了很大一部分(因此将其从分析中“删除”了)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.