Answers:
在最简单的情况下,如果只有一个预测变量(简单回归),例如,则F检验会告诉您,包括X 1是否确实解释了与零模型相比Y观察到的方差的较大部分(仅拦截) 。然后,想法是测试添加的解释方差(总方差,TSS,减去残留方差,RSS)是否大到足以被视为“重要数量”。我们在这里将具有一个预测变量或解释变量的模型与只是“噪声”(除了均值)无关的基线进行比较。
同样,您可以在多元回归设置中计算统计量:在这种情况下,它等于对模型中所有预测变量的检验,这在HT框架下意味着我们想知道它们是否对预测响应有用吗?变量。这就是为什么您可能会遇到整个模型的F检验很重要而与每个回归系数相关的某些t检验或z检验却没有的情况的原因。
该统计模样
其中是模型参数的数量,n是观测值的数量。这个量应被称为一个˚F p - 1 ,ñ - p分布的关键或p -值。它也适用于简单的回归模型,并且显然与经典的ANOVA框架相似。
边注。 当您拥有多个预测变量时,您可能想知道是否仅考虑这些预测变量的一个子集会“降低”模型拟合的质量。这对应于我们考虑嵌套模型的情况。这与上述情况完全相同,我们将给定的回归模型与null模型(不包括预测变量)进行比较。为了评估解释方差的减少,我们可以比较两个模型的残差平方和(RSS)(也就是说,一旦考虑了模型中存在的预测变量的影响,就无法解释了)。令和M 1表示基本模型(其中p参数和一个带有附加预测变量的模型(参数),则如果RSS M 1 - RSS M 0小,我们将认为较小的模型与较大的模型一样好。一个很好的统计数据将使用此类SS的比率( RSS M 1 - RSS M,由它们的自由度(分子的p-q和n-p分母)。如已经说过的,可以证明该数量遵循自由度为p - q和n - p的(或Fisher-Snedecor)分布。如果在给定的α下观察到的F大于对应的F分位数(通常为α = 0.05),那么我们可以得出结论,较大的模型可以做得更好。(从实际角度看,这绝不表示该模型是正确的!)
上述想法的概括是似然比检验。
如果您使用的是R,则可以使用上述概念:
df <- transform(X <- as.data.frame(replicate(2, rnorm(100))),
y = V1+V2+rnorm(100))
## simple regression
anova(lm(y ~ V1, df)) # "ANOVA view"
summary(lm(y ~ V1, df)) # "Regression view"
## multiple regression
summary(lm0 <- lm(y ~ ., df))
lm1 <- update(lm0, . ~ . -V2) # reduced model
anova(lm1, lm0) # test of V2
anova()
R中的函数为模型中的每个预测变量返回单独的一行。例如,anova(lm0)
上述返回的行V1
,V2
和Residuals
(没有总)。这样,我们得到了该模型的两个F *统计量。这如何改变ANOVA表中报告的F *统计的解释?
anova()
用于GLM比较。应用于lm
或aov
对象时,它将为模型中的每个术语显示单独的效果(SS),并且不显示TSS。(我曾经用另一种方法来应用此方法,即用拟合ANOVA之后aov()
,可以summary.lm()
用来了解处理对比。)但是,summary.lm()
和之间存在细微的问题summary.aov()
,尤其是与顺序拟合有关。