在多元线性回归中,为什么有可能具有非常显着的F统计量(p <.001),但是在所有回归变量的t检验中都具有非常高的p值?
在我的模型中,有10个回归变量。一个的p值为0.1,其余的都在0.9以上
有关处理此问题的信息,请参见后续问题。
在多元线性回归中,为什么有可能具有非常显着的F统计量(p <.001),但是在所有回归变量的t检验中都具有非常高的p值?
在我的模型中,有10个回归变量。一个的p值为0.1,其余的都在0.9以上
有关处理此问题的信息,请参见后续问题。
Answers:
正如Rob提到的,当您具有高度相关的变量时,就会发生这种情况。我使用的标准示例是根据鞋子的尺寸预测体重。您可以通过左右鞋子的大小来同样好地预测体重。但是在一起却行不通。
简要的仿真示例
RSS = 3:10 #Right shoe size
LSS = rnorm(RSS, RSS, 0.1) #Left shoe size - similar to RSS
cor(LSS, RSS) #correlation ~ 0.99
weights = 120 + rnorm(RSS, 10*RSS, 10)
##Fit a joint model
m = lm(weights ~ LSS + RSS)
##F-value is very small, but neither LSS or RSS are significant
summary(m)
##Fitting RSS or LSS separately gives a significant result.
summary(lm(weights ~ LSS))
导致此的自变量之间的相关性很小。
要了解原因,请尝试以下操作:
画出50套10个向量,其系数为标准正态。
计算对于我=1,2,...,9。这使yi单独成为标准法线,但它们之间存在一些相关性。
计算。注意w = √。
向添加一些独立的正态分布错误。用少量的实验我发现Ž = 瓦特+ ε与ε 〜Ñ (0 ,6 )工作得很好。从而,是 x i加上某些误差的总和。这也是总和一些的 Ÿ 我加了同样的错误。
我们将作为自变量,将z作为因变量。
这是一个这样的数据集的散点图矩阵,其中沿着顶部和左侧,而y i依次进行。
之间的相关性预期和ÿ Ĵ是1 / 2时| i − j | = 1,否则为0。所实现的相关范围高达62%。它们显示为对角线旁边更紧密的散点图。
看看对y i的回归:
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 9, 40) = 4.57
Model | 1684.15999 9 187.128887 Prob > F = 0.0003
Residual | 1636.70545 40 40.9176363 R-squared = 0.5071
-------------+------------------------------ Adj R-squared = 0.3963
Total | 3320.86544 49 67.7727641 Root MSE = 6.3967
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.184007 1.264074 1.73 0.092 -.3707815 4.738795
y2 | 1.537829 1.809436 0.85 0.400 -2.119178 5.194837
y3 | 2.621185 2.140416 1.22 0.228 -1.704757 6.947127
y4 | .6024704 2.176045 0.28 0.783 -3.795481 5.000421
y5 | 1.692758 2.196725 0.77 0.445 -2.746989 6.132506
y6 | .0290429 2.094395 0.01 0.989 -4.203888 4.261974
y7 | .7794273 2.197227 0.35 0.725 -3.661333 5.220188
y8 | -2.485206 2.19327 -1.13 0.264 -6.91797 1.947558
y9 | 1.844671 1.744538 1.06 0.297 -1.681172 5.370514
_cons | .8498024 .9613522 0.88 0.382 -1.093163 2.792768
------------------------------------------------------------------------------
F统计量非常重要,但是即使没有对所有9个变量进行任何调整,自变量都不是。
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 5, 44) = 7.77
Model | 1556.88498 5 311.376997 Prob > F = 0.0000
Residual | 1763.98046 44 40.0904649 R-squared = 0.4688
-------------+------------------------------ Adj R-squared = 0.4085
Total | 3320.86544 49 67.7727641 Root MSE = 6.3317
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.943948 .8138525 3.62 0.001 1.303736 4.58416
y3 | 3.403871 1.080173 3.15 0.003 1.226925 5.580818
y5 | 2.458887 .955118 2.57 0.013 .533973 4.383801
y7 | -.3859711 .9742503 -0.40 0.694 -2.349443 1.577501
y9 | .1298614 .9795983 0.13 0.895 -1.844389 2.104112
_cons | 1.118512 .9241601 1.21 0.233 -.7440107 2.981034
------------------------------------------------------------------------------
即使使用Bonferroni调整,其中一些变量也非常重要。(查看这些结果可以说很多话,但这会使我们偏离重点。)
我们可以从中得出的一个结论是,当模型中包含太多变量时,它们可以掩盖真正重要的变量。这的第一个迹象是总体F统计量非常高,同时对各个系数的t检验不那么显着。(即使某些变量单独具有显着性,也并不意味着其他变量并非如此。这是逐步回归策略的基本缺陷之一:它们成为掩盖问题的受害者。)顺便说一下,方差膨胀因子在第一个回归范围从2.55到6.09,平均值为4.79:正处于根据最保守的经验法则诊断某种多重共线性的临界点上;根据其他规则(其中10是上限)远低于阈值。
当预测变量高度相关时,就会发生这种情况。想象一下这样一种情况,其中只有两个具有非常高相关性的预测变量。它们各自也分别与响应变量紧密相关。因此,F检验的p值低(也就是说,预测变量在一起对解释响应变量的变化非常重要)。但是,每个预测变量的t检验都具有较高的p值,因为在考虑其他预测变量的影响之后,没有太多要解释的了。
要搜索的关键字是“共线性”或“多重共线性”。可以使用方差膨胀因子(VIF)之类的诊断方法或Belsley,Kuh和Welsch 在教科书“回归诊断:识别影响数据和共线性的源”中描述的方法进行检测。VIF更容易理解,但是它们不能处理涉及截距的共线性(即,预测变量本身或线性组合几乎是恒定的)-相反,BKW诊断的直观性要差得多,但可以处理涉及拦截。
您得到的答案取决于您提出的问题。除了已经指出的要点外,各个参数F值和整体模型F值还回答不同的问题,因此它们得到的答案也不同。即使单个F值不太接近有效值,我也已经看到这种情况的发生,尤其是当模型具有超过2或3个IV的时候。我可能不知道有什么方法可以组合各个p值并获得有意义的结果。
要记住的另一件事是,对各个系数的检验均假设所有其他预测变量都在模型中。换句话说,只要所有其他预测变量都在模型中,每个预测变量都不重要。两个或多个预测变量之间必须存在某种相互作用或相互依存关系。
正如上面其他人所问的那样-您如何诊断缺乏多重共线性?