简单线性回归中ANOVA F检验的逻辑


17


我试图了解简单线性回归分析中ANOVA F检验的逻辑。我的问题如下。当F值 MSR/MSE较大时,我们认为模型是有效的。这背后的逻辑是什么?


@ Can'tTell您可以在此处找到有关格式设置的帮助:stats.stackexchange.com/editing-help

Answers:


21

在最简单的情况下,如果只有一个预测变量(简单回归),例如,则F检验会告诉您,包括X 1是否确实解释了与零模型相比Y观察到的方差的较大部分(仅拦截) 。然后,想法是测试添加的解释方差(总方差,TSS,减去残留方差,RSS)是否大到足以被视为“重要数量”。我们在这里将具有一个预测变量或解释变量的模型与只是“噪声”(除了均值)无关的基线进行比较。X1FX1Y

同样,您可以在多元回归设置中计算统计量:在这种情况下,它等于对模型中所有预测变量的检验,这在HT框架下意味着我们想知道它们是否对预测响应有用吗?变量。这就是为什么您可能会遇到整个模型的F检验很重要而与每个回归系数相关的某些t检验或z检验却没有的情况的原因。FFtz

统计模样F

F=(TSSRSS)/(p1)RSS/(np),

其中是模型参数的数量,n是观测值的数量。这个量应被称为一个˚F p - 1 ñ - p分布的关键或p -值。它也适用于简单的回归模型,并且显然与经典的ANOVA框架相似。pnFp1,npp

边注。 当您拥有多个预测变量时,您可能想知道是否仅考虑这些预测变量的一个子集会“降低”模型拟合的质量。这对应于我们考虑嵌套模型的情况。这与上述情况完全相同,我们将给定的回归模型与null模型(不包括预测变量)进行比较。为了评估解释方差的减少,我们可以比较两个模型的残差平方和(RSS)(也就是说,一旦考虑了模型中存在的预测变量的影响,就无法解释了)。令M 1表示基本模型(其中pM0M1p参数和一个带有附加预测变量的模型(参数),则如果RSS M 1 - RSS M 0小,我们将认为较小的模型与较大的模型一样好。一个很好的统计数据将使用此类SS的比率 RSS M 1 - RSS Mq=p+1RSSM1RSSM0,由它们的自由度(分子的p-qn-p(RSSM1RSSM0)/RSSM0pqnp分母)。如已经说过的,可以证明该数量遵循自由度为p - qn - p(或Fisher-Snedecor)分布。如果在给定的α下观察到的F大于对应的F分位数(通常为α = 0.05),那么我们可以得出结论,较大的模型可以做得更好。(从实际角度看,这绝不表示该模型是正确的!)FpqnpFFαα=0.05

上述想法的概括是似然比检验

如果您使用的是R,则可以使用上述概念:

df <- transform(X <- as.data.frame(replicate(2, rnorm(100))), 
                                   y = V1+V2+rnorm(100))
## simple regression
anova(lm(y ~ V1, df))         # "ANOVA view"
summary(lm(y ~ V1, df))       # "Regression view"
## multiple regression
summary(lm0 <- lm(y ~ ., df))
lm1 <- update(lm0, . ~ . -V2) # reduced model
anova(lm1, lm0)               # test of V2

@chl-首先,好的答案!这也许可以保证这是一个问题,所以让我知道...但是我所读的有关回归模型的ANOVA表的描述通常引用该表中的三行:预测变量,错误和总计。但是,anova()R中的函数为模型中的每个预测变量返回单独的一行。例如,anova(lm0)上述返回的行V1V2Residuals(没有总)。这样,我们得到了该模型的两个F *统计量。这如何改变ANOVA表中报告的F *统计的解释?
大通

@追逐是的,我想到的方差分析表也以这种方式排列。随时问这个问题;我很想听听其他用户对此的看法。我通常将其anova()用于GLM比较。应用于lmaov对象时,它将为模型中的每个术语显示单独的效果(SS),并且不显示TSS。(我曾经用另一种方法来应用此方法,即用拟合ANOVA之后aov(),可以summary.lm()用来了解处理对比。)但是,summary.lm()和之间存在细微的问题summary.aov(),尤其是与顺序拟合有关。
chl

@Chase我刚刚从@Gavin重新发现了有关R的lm()输出解释的非常好的响应。
chl

@chl-我有点挑剔。关于F检验的直觉以及它如何“朝正确的方向”,这是一个很好的答案。但这并不能解释为什么您应该选择此特定测试的逻辑。例如,为什么我们不应该使用PRESS统计数据?您暗示了似然比- 确实有逻辑上的依据-因此,它不同于F检验,因此适用于所有模型。
概率

@probabilityislogic好点。我的想法最初是为了显示模型比较背后的逻辑,其中简单的回归模型只是一个特殊情况(与“非常空”模型比较),这也激发了有关LRT的快速注意。我同意您的意见,如果我们按照HT的纯Neyman-Pearson方法开展工作。但是,我主要考虑的是LM理论,其中SS具有直接的几何解释,而模型比较或单向方差分析的单个F检验(...)
chl
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.