将更多变量添加到多变量回归中是否会更改现有变量的系数？

16

假设我有一个由3个变量组成的多变量（几个独立变量）回归。这些变量中的每一个都有给定的系数。如果我决定引入第四个变量并重新运行回归，则三个原始变量的系数会改变吗？

更广泛地说：在多变量（多个独立变量）回归中，给定变量的系数是否受另一个变量的系数影响？

regression multiple-regression multivariable

— 卢卡斯·普列娃（Lukas Pleva）
source

1

请更精确地编辑问题。通过难道multivariable你的意思是多个独立变量（“多元回归分析”）或多个因变量（“多元回归分析”或“MAN（C）OVA”）？

— ttnphns

1

如果答案是否定的，那么就不需要进行多元回归了！（我们可以简单地做很多单变量的）

— user603 2013年

1

这是一个很有见地的观点，@ user603，但是我认为可能仍然存在多元回归的地方，因为如果其他变量与响应有意义地相关（尽管不是解释变量），它们可以减少残差并导致改善。功率和精度。

— gung-恢复莫妮卡

23

在回归模型（例如参数估计）会改变，如果一个变量，，被添加到是模型： $\hat\beta_i$ $X_j$

与该参数的对应变量（已在模型中）相关，并且 $X_i$
与响应变量 $Y$

如果以上任何一个都不相关，则在添加新变量时估计的beta不会改变。请注意，无论它们是不相关的人口（即，，或者）是无关紧要的。重要的是两个样本相关性都正好为。除非您正在使用实验数据，在这些数据中对变量进行了处理以使它们与设计无关，否则实际上在实践中绝不会如此。 $\rho_{(X_i, X_j)}=0$ $\rho_{(X_j, Y)}=0$ $0$

还要注意，参数更改的数量可能并没有什么意义（至少部分取决于您的理论）。而且，它们可以改变的量是上述两个相关性的大小的函数。

另一方面，将这种现象视为“受另一个变量的系数影响的给定变量的系数”是不正确的。相互影响的不是beta。这种现象是统计软件用来估算斜率参数的算法的自然结果。想象一下这样一种情况，其中是由和引起的，而和又相互关联。如果只有在模型中，则由于导致的某些变化将不适当地归因于 $Y$ $X_i$ $X_j$ $X_i$ $Y$ $X_j$ $X_i$ 。这意味着的值是有偏差的；这称为省略变量偏差。 $X_i$

— gung-恢复莫妮卡
source

在最后一句话中要指出的非常好。

— Glen_b-恢复莫妮卡

b_{1} x_{1} + b_{2} x_{2}

$b_1x_1+b_2x_2$

b_{1} x_{1} + b_{2} x_{2} + b_{3} x_{3}

$b_1x_1+b_2x_2+b_3x_3$

y

$y$

x 2

$x2$

x 1

$x1$

y

$y$

x 1

$x1$

x 1

$x1$

y

$y$

Y

$Y$

1

s_{1}

$s_1$

@gung非常感谢您的回复。您知道创建完美数据的方法吗？我知道这在现实生活中不可能发生

— 弗洛伊德（Floyd）

3

从数学上讲，系数可能不会发生变化，但是即使所有独立变量彼此独立，实际数据也不可能完全没有变化。但是，在这种情况下，更改（除了截距中的更改）将趋于0：

set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)

但是，在现实世界中，自变量通常彼此相关。在这种情况下，在方程式中添加第4个变量有时会使其他系数发生很大变化。

然后可能会有相互作用……。但这是另一个问题。

— 彼得·弗洛姆-恢复莫妮卡
source

1

一般而言，是的，添加变量几乎总是更改较早的系数。

的确，这本质上是造成辛普森悖论的原因，因为协变量被忽略，系数可能会发生变化，甚至是反向符号。

为了避免这种情况发生，我们需要使新变量与之前的变量正交。这通常发生在设计好的实验中，但是很少发生在未计划独立变量模式的数据中。

— Glen_b-恢复莫妮卡
source