将更多变量添加到多变量回归中是否会更改现有变量的系数?


16

假设我有一个由3个变量组成的多变量(几个独立变量)回归。这些变量中的每一个都有给定的系数。如果我决定引入第四个变量并重新运行回归,则三个原始变量的系数会改变吗?

更广泛地说:在多变量(多个独立变量)回归中,给定变量的系数是否受另一个变量的系数影响?


1
请更精确地编辑问题。通过难道multivariable你的意思是多个独立变量(“多元回归分析”)或多个因变量(“多元回归分析”或“MAN(C)OVA”)?
ttnphns

1
如果答案是否定的,那么就不需要进行多元回归了!(我们可以简单地做很多单变量的)
user603 2013年

1
这是一个很有见地的观点,@ user603,但是我认为可能仍然存在多元回归的地方,因为如果其他变量与响应有意义地相关(尽管不是解释变量),它们可以减少残差并导致改善。功率和精度。
gung-恢复莫妮卡

Answers:


23

在回归模型(例如参数估计β)会改变,如果一个变量,X Ĵ,被添加到是模型: β^一世XĴ

  1. 与该参数的对应变量(已在模型中)相关,并且X一世
  2. 与响应变量ÿ

如果以上任何一个都不相关,则在添加新变量时估计的beta不会改变。请注意,无论它们是不相关的人口(即,或者ρ X Ĵÿ = 0)是无关紧要的。重要的是两个样本相关性都正好为0。除非您正在使用实验数据,在这些数据中对变量进行了处理以使它们与设计无关,否则实际上在实践中绝不会如此。 ρX一世XĴ=0 ρXĴÿ=00

还要注意,参数更改的数量可能并没有什么意义(至少部分取决于您的理论)。而且,它们可以改变的量是上述两个相关性的大小的函数。

另一方面,将这种现象视为“受另一个变量的系数影响的给定变量的系数”是不正确的。相互影响的不是beta。这种现象是统计软件用来估算斜率参数的算法的自然结果。想象一下这样一种情况,其中是由X iX j引起的,而X iX j又相互关联。如果只有X i在模型中,则由于X j导致的Y的某些变化将不适当地归因于X iÿX一世XĴX一世ÿXĴX一世。这意味着的值是有偏差的;这称为省略变量偏差X一世


在最后一句话中要指出的非常好。
Glen_b-恢复莫妮卡


ÿX2X1个ÿX1个X1个ÿÿ

1
s1个

@gung非常感谢您的回复。您知道创建完美数据的方法吗?我知道这在现实生活中不可能发生
弗洛伊德(Floyd)

3

从数学上讲,系数可能不会发生变化,但是即使所有独立变量彼此独立,实际数据也不可能完全没有变化。但是,在这种情况下,更改(除了截距中的更改)将趋于0:

set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)

但是,在现实世界中,自变量通常彼此相关。在这种情况下,在方程式中添加第4个变量有时会使其他系数发生很大变化。

然后可能会有相互作用……。但这是另一个问题。


1

一般而言,是的,添加变量几乎总是更改较早的系数。

的确,这本质上是造成辛普森悖论的原因,因为协变量被忽略,系数可能会发生变化,甚至是反向符号。

为了避免这种情况发生,我们需要使新变量与之前的变量正交。这通常发生在设计好的实验中,但是很少发生在未计划独立变量模式的数据中。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.