为什么有可能获得显着的F统计量(p <.001)但无显着的回归t检验?


70

在多元线性回归中,为什么有可能具有非常显着的F统计量(p <.001),但是在所有回归变量的t检验中都具有非常高的p值?

在我的模型中,有10个回归变量。一个的p值为0.1,其余的都在0.9以上


有关处理此问题的信息,请参见后续问题


2
常数也微不足道吗?涉及多少案件?有多少个变量?
ub

如何诊断多重共线性?有很多方法,有些方法比其他方法更有用。您告诉我们的信息越多,社区可以做出的回答就越好。
StasK,2011年

3
该问题已成为常见问题解答。这里的一些答案是从基本相似的线程合并而成的。
ub

3
另请参阅此处:回归如何显着而所有预测变量均不显着;有关相反情况的讨论,请参见此处:重要t检验与非显着F统计量
gung

我遇到了同样的问题,上面的答案都无法帮助我。现在,我知道了答案(至少对我的问题而言):模型2的F值很重要,因为您获得了与模型1相同的“常数”(变量)(该F值也很重要)。您必须在“信号”列中查看“模型摘要”表。F Change”以查看R平方的变化是否显着(对于模型2)。如果那个值很重要,则b值也应该很重要。您可以完全忽略F值。

Answers:


53

正如Rob提到的,当您具有高度相关的变量时,就会发生这种情况。我使用的标准示例是根据鞋子的尺寸预测体重。您可以通过左右鞋子的大小来同样好地预测体重。但是在一起却行不通。

简要的仿真示例

RSS = 3:10 #Right shoe size
LSS = rnorm(RSS, RSS, 0.1) #Left shoe size - similar to RSS
cor(LSS, RSS) #correlation ~ 0.99

weights = 120 + rnorm(RSS, 10*RSS, 10)

##Fit a joint model
m = lm(weights ~ LSS + RSS)

##F-value is very small, but neither LSS or RSS are significant
summary(m)

##Fitting RSS or LSS separately gives a significant result. 
summary(lm(weights ~ LSS))

9
值得注意的是,在这种情况下,两个模型的预测都一样好。预测变量之间的高度相关性不一定是预测问题。仅当1)分析人员试图不适当地解释多个回归系数时,多重共线性才是问题。2)模型是不可估计的;3)SE膨胀,系数不稳定。
布雷特

我知道这两个变量之间具有高度相关性,因此t检验的结果不显着,而F检验的结果却是显着的。但是怎么会这样呢?我的意思是,这个事实背后的原因是什么?
yue86231 2014年

105

导致此的自变量之间的相关性很小。

要了解原因,请尝试以下操作:

  • 画出50套10个向量,其系数为标准正态。X1个X2X10

  • 计算对于=12...9。这使yi单独成为标准法线,但它们之间存在一些相关性。ÿ一世=X一世+X一世+1个/2一世=1个29ÿ一世

  • 计算。注意w = w=X1个+X2++X10w=2ÿ1个+ÿ3+ÿ5+ÿ7+ÿ9

  • 添加一些独立的正态分布错误。用少量的实验我发现Ž = 瓦特+ εε Ñ 0 6 工作得很好。从而,wz=w+εεñ06 x i加上某些误差的总和。这也是总和一些 Ÿ 加了同样的错误。žX一世ÿ一世

我们将作为自变量,将z作为因变量。ÿ一世ž

这是一个这样的数据集的散点图矩阵,其中沿着顶部和左侧,而y i依次进行。žÿ一世

散点图矩阵

之间的相关性预期ÿ Ĵ1 / 2| i j | = 1,否则为0。所实现的相关范围高达62%。它们显示为对角线旁边更紧密的散点图。ÿ一世ÿĴ1个/2|一世-Ĵ|=1个0

看看y i的回归:žÿ一世

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  9,    40) =    4.57
       Model |  1684.15999     9  187.128887           Prob > F      =  0.0003
    Residual |  1636.70545    40  40.9176363           R-squared     =  0.5071
-------------+------------------------------           Adj R-squared =  0.3963
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3967

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.184007   1.264074     1.73   0.092    -.3707815    4.738795
          y2 |   1.537829   1.809436     0.85   0.400    -2.119178    5.194837
          y3 |   2.621185   2.140416     1.22   0.228    -1.704757    6.947127
          y4 |   .6024704   2.176045     0.28   0.783    -3.795481    5.000421
          y5 |   1.692758   2.196725     0.77   0.445    -2.746989    6.132506
          y6 |   .0290429   2.094395     0.01   0.989    -4.203888    4.261974
          y7 |   .7794273   2.197227     0.35   0.725    -3.661333    5.220188
          y8 |  -2.485206    2.19327    -1.13   0.264     -6.91797    1.947558
          y9 |   1.844671   1.744538     1.06   0.297    -1.681172    5.370514
       _cons |   .8498024   .9613522     0.88   0.382    -1.093163    2.792768
------------------------------------------------------------------------------

F统计量非常重要,但是即使没有对所有9个变量进行任何调整,自变量都不是。

žÿ一世

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  5,    44) =    7.77
       Model |  1556.88498     5  311.376997           Prob > F      =  0.0000
    Residual |  1763.98046    44  40.0904649           R-squared     =  0.4688
-------------+------------------------------           Adj R-squared =  0.4085
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3317

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.943948   .8138525     3.62   0.001     1.303736     4.58416
          y3 |   3.403871   1.080173     3.15   0.003     1.226925    5.580818
          y5 |   2.458887    .955118     2.57   0.013      .533973    4.383801
          y7 |  -.3859711   .9742503    -0.40   0.694    -2.349443    1.577501
          y9 |   .1298614   .9795983     0.13   0.895    -1.844389    2.104112
       _cons |   1.118512   .9241601     1.21   0.233    -.7440107    2.981034
------------------------------------------------------------------------------

即使使用Bonferroni调整,其中一些变量也非常重要。(查看这些结果可以说很多话,但这会使我们偏离重点。)

žÿ2ÿ4ÿ6ÿ8ž

ÿ一世

我们可以从中得出的一个结论是,当模型中包含太多变量时,它们可以掩盖真正重要的变量。这的第一个迹象是总体F统计量非常高,同时对各个系数的t检验不那么显着。(即使某些变量单独具有显着性,也并不意味着其他变量并非如此。这是逐步回归策略的基本缺陷之一:它们成为掩盖问题的受害者。)顺便说一下,方差膨胀因子在第一个回归范围从2.55到6.09,平均值为4.79:正处于根据最保守的经验法则诊断某种多重共线性的临界点上;根据其他规则(其中10是上限)远低于阈值。


5
好答案。我加1。我本来想给它更多。
迈克尔·切尔尼克

41

多重共线性

  • [R2
  • 当然,多重共线性不仅限于绝对阈值。回归系数的标准误差将随着与焦点预测变量的相互关系增加而增加。

多个几乎重要的预测指标

  • 即使您没有多重共线性,但如果两个或多个单独的预测变量接近显着水平,因此总体而言,总体预测也超过了统计显着性阈值,那么您仍然可以获得非重要的预测变量和总体显着模型。例如,使用.05的alpha值,如果您有两个p值为.06和.07的预测变量,那么如果整个模型的p <.05,我不会感到惊讶。

简洁明了的答案。除此之外,我建议您对数据进行扰动(或删除预测变量)并查看回归系数是否存在显着变化。例如,注意符号变化。
Mustafa S Eisa 2015年

38

当预测变量高度相关时,就会发生这种情况。想象一下这样一种情况,其中只有两个具有非常高相关性的预测变量。它们各自也分别与响应变量紧密相关。因此,F检验的p值低(也就是说,预测变量在一起对解释响应变量的变化非常重要)。但是,每个预测变量的t检验都具有较高的p值,因为在考虑其他预测变量的影响之后,没有太多要解释的了。


嗨,罗伯,抱歉打扰您了。我通读了您的答案(因为我现在正面临问题),但我无法理解您说的意思:“在考虑其他预测变量的影响之后,没有太多要解释的了。” 我可以请你解释一下吗?非常感谢。
yue86231 2014年

1
@ yue86231这意味着,尽管每个预测变量都有一个p值,但我们不能孤立地解释每个p值。考虑了所有其他变量解释的方差之后,每个预测变量t检验只能显示变量的重要性。可以说,线性回归系数和标准误差是同时产生的,并且这两个预测变量彼​​此降低了显着性。
罗伯特·库布里克

11

X1个ñ01个X2=一种X1个+δÿ=bX1个+CX2+ϵδϵX1个ñ01个

CØvX2ÿ=Ë[一种X1个+δbX1个+CX2+ϵ]=Ë[一种X1个+δ{b+一种C}X1个+Cδ+ϵ]=一种b+一种C+C

一种=1个b=2C=-1个

您说过您了解变量相关和回归无关紧要的问题;这可能意味着您经常被提及多重共线性而感到不适,但是您需要增强对最小二乘几何的理解。


10

要搜索的关键字是“共线性”或“多重共线性”。可以使用方差膨胀因子(VIF)之类的诊断方法或Belsley,Kuh和Welsch 在教科书“回归诊断:识别影响数据和共线性的源”中描述的方法进行检测。VIF更容易理解,但是它们不能处理涉及截距的共线性(即,预测变量本身或线性组合几乎是恒定的)-相反,BKW诊断的直观性要差得多,但可以处理涉及拦截。


9

您得到的答案取决于您提出的问题。除了已经指出的要点外,各个参数F值和整体模型F值还回答不同的问题,因此它们得到的答案也不同。即使单个F值不太接近有效值,我也已经看到这种情况的发生,尤其是当模型具有超过2或3个IV的时候。我可能不知道有什么方法可以组合各个p值并获得有意义的结果。


2
(-1)是-原始发布者指出他/她也看到了这种情况。问题是,除了共线性之外,究竟还有哪些其他原因会导致这种情况,我不认为这是答案。

4
@Macro Downvote似乎有点苛刻,因为在此回复中有一个有用而有效的观察结果:整体意义和个体变量意义的检验“回答不同的问题”。诚然,这是定性的,但仅次于具有很多赞誉的第一个答案。并且为该答案添加了一些有效的直觉,可以说是对该答案的改进。
ub

1
我从未说过此回复没有提供有效的信息或直觉。如果我对这个问题有一个很好的答案,那么我现在已经回答了-这是一个棘手的问题-我只是说这个回答似乎并没有从任何意义上回答这个问题。

9

要记住的另一件事是,对各个系数的检验均假设所有其他预测变量都在模型中。换句话说,只要所有其他预测变量都在模型中,每个预测变量都不重要。两个或多个预测变量之间必须存在某种相互作用或相互依存关系。

正如上面其他人所问的那样-您如何诊断缺乏多重共线性?


4

一种了解这一点的方法是@StasK建议的最小二乘几何。

另一个是要认识到,这意味着在控制其他变量时,X与Y相关,但并不单独。您说X与唯一性有关 Y的方差有关。这是正确的。但是,Y中的唯一方差与总方差不同。那么,其他变量消除了哪些方差?

如果您能告诉我们您的变量,将会有所帮助。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.