关于多元ANOVA的一个可能非常基本的问题。假设采用双向设计,我们同时测试主要效果A,B和交互作用A:B。在测试类型为I SS的A的主要效果时,效果SS的计算方式为差异,其中是仅具有截距的模型的残差平方误差和,和的RSS与因子A的模式添加。我的问题涉及错误术语的选择:- [R 小号小号(1 )- [R 小号小号(甲)
您如何证明此测试的误差项通常是从包含主效应和相互作用的完整模型A + B + A:B的RSS计算而来的?
...而不是从实际比较中从不受限制的模型中提取误差项(在上述情况下,RSS仅来自主要效应A):
这有所不同,因为在比较中,来自完整模型的误差项可能经常(并非总是)小于不受限制模型的误差项。似乎误差项的选择有些随意,仅通过添加/删除不是真正感兴趣的因素,但仍要更改误差项,就可以为所需的p值变化创造空间。
在以下示例中,即使效果SS的实际比较保持不变,A的F值也会根据整个模型的选择而发生很大变化。
> DV <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+ 56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+ 43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)
> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1)) # full model = unrestricted model (just A)
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.556 0.9342 0.4009
Residuals 42 2272.80 54.114
> anova(lm(DV ~ IV1 + IV2)) # full model = A+B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.9833 0.1509
IV2 2 1253.19 626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61 25.49
> anova(lm(DV ~ IV1 + IV2 + IV1:IV2)) # full model = A+B+A:B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.8102 0.1782
IV2 2 1253.19 626.59 22.4357 4.711e-07 ***
IV1:IV2 4 14.19 3.55 0.1270 0.9717
Residuals 36 1005.42 27.93
相同的问题适用于II型SS,通常适用于一般的线性假设,即适用于完整模型中受限模型和非受限模型之间的模型比较。(对于III型SS,不受限制的模型始终是完整模型,因此在那里不会出现问题)
IV1
(第一个示例),则分母的两个表达式相同。但是,当完整模型包含其他效果时,即使模型比较(与类型1 SS相比)也不变,用于测试的分母也会发生变化。在这3个示例中,的均方根不变(在所有情况下,模型比较都相同),但均方根误差不变。当实际比较保持不变时,我对改变误差项的合理性感兴趣。A~ 1
~ IV1 + 1
anova(lm(DV ~ IV1))
anova(lm(DV ~ 1))
anova(lm(DV ~ IV1))