简单线性回归中ANOVA F检验的逻辑

我试图了解简单线性回归分析中ANOVA F检验的逻辑。我的问题如下。当F值 MSR/MSE较大时，我们认为模型是有效的。这背后的逻辑是什么？

regression anova

— 无法分辨
source

@ Can'tTell您可以在此处找到有关格式设置的帮助：stats.stackexchange.com/editing-help

在最简单的情况下，如果只有一个预测变量（简单回归），例如，则检验会告诉您，包括是否确实解释了与零模型相比观察到的方差的较大部分（仅拦截）。然后，想法是测试添加的解释方差（总方差，TSS，减去残留方差，RSS）是否大到足以被视为“重要数量”。我们在这里将具有一个预测变量或解释变量的模型与只是“噪声”（除了均值）无关的基线进行比较。 $X_1$ $F$ $X_1$ $Y$

同样，您可以在多元回归设置中计算统计量：在这种情况下，它等于对模型中所有预测变量的检验，这在HT框架下意味着我们想知道它们是否对预测响应有用吗？变量。这就是为什么您可能会遇到整个模型的检验很重要而与每个回归系数相关的某些检验或检验却没有的情况的原因。 $F$ $F$ $t$ $z$

该统计模样 $F$

F = \frac{(TSS - RSS) / (p - 1)}{RSS / (n - p)},

$F = \frac{(\text{TSS}-\text{RSS})/(p-1)}{\text{RSS}/(n-p)},$

其中是模型参数的数量，是观测值的数量。这个量应被称为一个分布的关键或 -值。它也适用于简单的回归模型，并且显然与经典的ANOVA框架相似。 $p$ $n$ $F_{p-1,n-p}$ $p$

边注。 当您拥有多个预测变量时，您可能想知道是否仅考虑这些预测变量的一个子集会“降低”模型拟合的质量。这对应于我们考虑嵌套模型的情况。这与上述情况完全相同，我们将给定的回归模型与null模型（不包括预测变量）进行比较。为了评估解释方差的减少，我们可以比较两个模型的残差平方和（RSS）（也就是说，一旦考虑了模型中存在的预测变量的影响，就无法解释了）。令和表示基本模型（其中 $\mathcal{M}_0$ $\mathcal{M}_1$ $p$ 参数和一个带有附加预测变量的模型（参数），则如果小，我们将认为较小的模型与较大的模型一样好。一个很好的统计数据将使用此类SS的比率 $q=p+1$ $\text{RSS}_{\mathcal{M}_1}-\text{RSS}_{\mathcal{M}_0}$ ，由它们的自由度（分子的和 $(\text{RSS}_{\mathcal{M}_1}-\text{RSS}_{\mathcal{M}_0})/\text{RSS}_{\mathcal{M}_0}$ $p-q$ $n-p$ 分母）。如已经说过的，可以证明该数量遵循自由度为和的（或Fisher-Snedecor）分布。如果在给定的观察到的大于对应的分位数（通常为），那么我们可以得出结论，较大的模型可以做得更好。（从实际角度看，这绝不表示该模型是正确的！） $F$ $p-q$ $n-p$ $F$ $F$ $\alpha$ $\alpha=0.05$

上述想法的概括是似然比检验。

如果您使用的是R，则可以使用上述概念：

df <- transform(X <- as.data.frame(replicate(2, rnorm(100))), 
                                   y = V1+V2+rnorm(100))
## simple regression
anova(lm(y ~ V1, df))         # "ANOVA view"
summary(lm(y ~ V1, df))       # "Regression view"
## multiple regression
summary(lm0 <- lm(y ~ ., df))
lm1 <- update(lm0, . ~ . -V2) # reduced model
anova(lm1, lm0)               # test of V2

— hl
source

@chl-首先，好的答案！这也许可以保证这是一个问题，所以让我知道...但是我所读的有关回归模型的ANOVA表的描述通常引用该表中的三行：预测变量，错误和总计。但是，anova()R中的函数为模型中的每个预测变量返回单独的一行。例如，anova(lm0)上述返回的行V1，V2和Residuals（没有总）。这样，我们得到了该模型的两个F *统计量。这如何改变ANOVA表中报告的F *统计的解释？

— 大通

@追逐是的，我想到的方差分析表也以这种方式排列。随时问这个问题；我很想听听其他用户对此的看法。我通常将其anova()用于GLM比较。应用于lm或aov对象时，它将为模型中的每个术语显示单独的效果（SS），并且不显示TSS。（我曾经用另一种方法来应用此方法，即用拟合ANOVA之后aov()，可以summary.lm()用来了解处理对比。）但是，summary.lm()和之间存在细微的问题summary.aov()，尤其是与顺序拟合有关。

— chl

@Chase我刚刚从@Gavin重新发现了有关R的lm（）输出解释的非常好的响应。

— chl

@chl-我有点挑剔。关于F检验的直觉以及它如何“朝正确的方向”，这是一个很好的答案。但这并不能解释为什么您应该选择此特定测试的逻辑。例如，为什么我们不应该使用PRESS统计数据？您暗示了似然比- 确实有逻辑上的依据-因此，它不同于F检验，因此适用于所有模型。

— 概率

@probabilityislogic好点。我的想法最初是为了显示模型比较背后的逻辑，其中简单的回归模型只是一个特殊情况（与“非常空”模型比较），这也激发了有关LRT的快速注意。我同意您的意见，如果我们按照HT的纯Neyman-Pearson方法开展工作。但是，我主要考虑的是LM理论，其中SS具有直接的几何解释，而模型比较或单向方差分析的单个F检验（...）

— chl