在多元回归模型中具有相关的预测变量有什么影响?


45

我在线性模型课程中了解到,如果两个预测变量相关,并且两个预测变量都包含在模型中,那么一个预测变量将是不重要的。例如,假设房屋的大小和卧室的数量是相关的。当使用这两个预测器预测房屋成本时,可以放弃其中一个,因为它们都提供了大量相同的信息。从直觉上讲,这是有道理的,但是我还有一些技术问题:

  1. 当仅在模型中包含一个或两个预测变量时,这种影响如何在回归系数的p值中体现出来?
  2. 通过在模型中包括两个预测变量或仅包含一个预测变量,如何影响回归系数的方差?
  3. 我怎么知道模型将选择不太重要的预测变量?
  4. 仅包含一个或两个预测变量如何改变我的预测成本的价值/差异?

6
您对某些问题的答案已经出现在其他线程中,例如stats.stackexchange.com/a/14528,该情况描述了一种情况,即使只有一组轻度相关的预测变量在一起每个预测变量似乎都是微不足道的在模型中。这是一组很好的问题,但是会导致大量的考虑和技巧。整本关于它们的书都被写了。例如,请参见Frank Harrell的回归建模策略
whuber

1
使用房屋大小和卧室,您可以看到如果相关性不同于1或-1,则不能保证微不足道。实际上存在两间卧室和三间卧室的房屋,它们的大小相同,而且它们的成本可能(显着)不同,从而使这两个预测指标均显着。但是,以平方米为单位的大小和以平方英尺为单位的大小的相关性为1,并且其中之一始终可以删除。
Pere

Answers:


38

您要询问的主题是multicolinearality。您可能要阅读CV上归类于标签下的一些线程。上面链接的 @whuber 答案特别值得您花时间。


断言“如果两个预测变量相关,并且两个预测变量都包含在模型中,那么一个变量将不重要”,这是不正确的。如果存在变量的实际影响,则变量将具有显着性的概率是几件事情的函数,例如影响的大小,误差方差的大小,变量本身的方差,数据量以及模型中其他变量的数量。变量是否相关也很重要,但是不会覆盖这些事实。考虑以下简单演示R

library(MASS)    # allows you to generate correlated data
set.seed(4314)   # makes this example exactly replicable

# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20,   mu=c(0,0), Sigma=rbind(c(1.00, 0.70),    # r=.70
                                            c(0.70, 1.00)) )
X1 = mvrnorm(n=100,  mu=c(0,0), Sigma=rbind(c(1.00, 0.87),    # r=.87
                                            c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95),    # r=.95
                                            c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20)    # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100)   #  but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000)  #  related to the 1st

# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X0[, 1]       0.6614     0.3612   1.831   0.0847 .     # neither variable
# X0[, 2]       0.4215     0.3217   1.310   0.2075       #  is significant
summary(lm(y1~X1[,1]+X1[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X1[, 1]      0.57987    0.21074   2.752  0.00708 **    # only 1 variable
# X1[, 2]      0.25081    0.19806   1.266  0.20841       #  is significant
summary(lm(y2~X2[,1]+X2[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X2[, 1]      0.60783    0.09841   6.177 9.52e-10 ***   # both variables
# X2[, 2]      0.39632    0.09781   4.052 5.47e-05 ***   #  are significant

N


X1X2R2X11/(1R2)X110X110×X1

考虑一下如果同时包含两个相关变量而只包含一个相关变量,将会发生什么,但是比上述方法稍微复杂一些。这是因为不包括变量意味着模型使用的自由度较小,从而改变了残差方差和由此计算出的所有值(包括回归系数的方差)。另外,如果未包含的变量确实与响应相关联,则由于该变量导致的响应方差将被包含在残差中,从而使其大于其他情况。因此,几件事同时改变(变量与另一个变量相关或不相关,以及剩余方差),删除/包括另一个变量的精确效果将取决于这些变量如何权衡。


有了对VIF的理解,以下是您的问题的答案:

  1. 因为如果回归系数的采样分布与模型中的其他变量相关,则回归系数的采样分布的方差将更大(是VIF的一个因素),因此p值将比其他情况更高(即不那么显着)。 。
  2. 如已经讨论的,回归系数的方差将更大。
  3. Y
  4. 预测值及其方差将如何变化非常复杂。这取决于变量之间的关联程度以及它们与数据中的响应变量关联的方式。关于这个问题,它可能会帮助您在这里阅读我的答案:“控制”和“忽略”多元回归中的其他变量之间是否有区别?

5

这更多的是评论,但是我想包括一个图形和一些代码。

我认为如果您的意思是“仅一个”,那么“如果两个预测变量相关并且两个都包含在模型中,那么一个变量将是不重要的”这一说法是错误的。二进制统计显着性不能用于变量选择。

这是我的反例,使用了大腿围,皮肤褶皱厚度*和手臂中围的体脂百分比回归:

. webuse bodyfat, clear
(Body Fat)

. reg bodyfat thigh triceps midarm

      Source |       SS       df       MS              Number of obs =      20
-------------+------------------------------           F(  3,    16) =   21.52
       Model |  396.984607     3  132.328202           Prob > F      =  0.0000
    Residual |  98.4049068    16  6.15030667           R-squared     =  0.8014
-------------+------------------------------           Adj R-squared =  0.7641
       Total |  495.389513    19  26.0731323           Root MSE      =    2.48

------------------------------------------------------------------------------
     bodyfat |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       thigh |  -2.856842   2.582015    -1.11   0.285    -8.330468    2.616785
     triceps |   4.334085   3.015511     1.44   0.170    -2.058512    10.72668
      midarm |  -2.186056   1.595499    -1.37   0.190    -5.568362     1.19625
       _cons |   117.0844   99.78238     1.17   0.258    -94.44474    328.6136
------------------------------------------------------------------------------

. corr bodyfat thigh triceps midarm 
(obs=20)

             |  bodyfat    thigh  triceps   midarm
-------------+------------------------------------
     bodyfat |   1.0000
       thigh |   0.8781   1.0000
     triceps |   0.8433   0.9238   1.0000
      midarm |   0.1424   0.0847   0.4578   1.0000


. ellip thigh triceps, coefs plot( (scatteri `=_b[thigh]' `=_b[triceps]'), yline(0, lcolor(gray)) xline(0, lcolor(gray)) legend(off))

在此处输入图片说明

从回归表中可以看到,尽管p值确实有所不同,但所有内容都不重要。

β

那么,我们如何知道哪些预测指标的重要性较低?回归变量的变化可分为两种类型:

  1. 每个回归变量唯一的变化
  2. 回归变量共享的变化

R2


*皮肤褶皱是指在三头肌上方的皮肤褶皱的宽度,并使用卡尺测量。


我喜欢您的示例,但是严格来说,如果原始问题中的语句说“如果只有一个将是无关紧要的”,而没有“仅”一词,那将是一个反例。
变形虫说恢复莫妮卡2014年

@amoeba这是一个很好的观点。我将修改我的评论。
Dimitriy V. Masterov 2014年

您能否提供一些公式来进一步说明:“在估计每个回归变量的系数时,只会使用第一个回归变量。由于无法分配共同的变化,因此将忽略它​​”
mac

3

正如@whuber所指出的,这是一个复杂的问题。但是,您帖子的第一句话是一个极大的简化。通常情况下,两个(或多个)变量将相关,并且都与因变量相关。它们是否显着取决于效应大小和细胞大小。

在您的示例中,假设对于给定的房屋大小,人们喜欢较少的房间(至少在纽约市,这不是不合理的-它表示较旧的建筑物,更坚固的墙壁等,并且可能是附近的标志)。那么两者都可能意义重大,方向相反!

或者,假设这两个变量是房屋大小和邻里关系-当然,这两个变量会与更好邻里中的较大房屋相关联-但它们可能仍然很重要,并且肯定都与房价有关。

而且,仅使用“相关”掩盖了复杂性。变量可以强相关而不相关。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.