假设我有一个由3个变量组成的多变量(几个独立变量)回归。这些变量中的每一个都有给定的系数。如果我决定引入第四个变量并重新运行回归,则三个原始变量的系数会改变吗?
更广泛地说:在多变量(多个独立变量)回归中,给定变量的系数是否受另一个变量的系数影响?
假设我有一个由3个变量组成的多变量(几个独立变量)回归。这些变量中的每一个都有给定的系数。如果我决定引入第四个变量并重新运行回归,则三个原始变量的系数会改变吗?
更广泛地说:在多变量(多个独立变量)回归中,给定变量的系数是否受另一个变量的系数影响?
Answers:
在回归模型(例如参数估计β我)会改变,如果一个变量,X Ĵ,被添加到是模型:
如果以上任何一个都不相关,则在添加新变量时估计的beta不会改变。请注意,无论它们是不相关的人口(即,,或者ρ (X Ĵ,ÿ ) = 0)是无关紧要的。重要的是两个样本相关性都正好为0。除非您正在使用实验数据,在这些数据中对变量进行了处理以使它们与设计无关,否则实际上在实践中绝不会如此。
还要注意,参数更改的数量可能并没有什么意义(至少部分取决于您的理论)。而且,它们可以改变的量是上述两个相关性的大小的函数。
另一方面,将这种现象视为“受另一个变量的系数影响的给定变量的系数”是不正确的。相互影响的不是beta。这种现象是统计软件用来估算斜率参数的算法的自然结果。想象一下这样一种情况,其中是由X i和X j引起的,而X i和X j又相互关联。如果只有X i在模型中,则由于X j导致的Y的某些变化将不适当地归因于X i。这意味着的值是有偏差的;这称为省略变量偏差。
从数学上讲,系数可能不会发生变化,但是即使所有独立变量彼此独立,实际数据也不可能完全没有变化。但是,在这种情况下,更改(除了截距中的更改)将趋于0:
set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)
但是,在现实世界中,自变量通常彼此相关。在这种情况下,在方程式中添加第4个变量有时会使其他系数发生很大变化。
然后可能会有相互作用……。但这是另一个问题。
一般而言,是的,添加变量几乎总是更改较早的系数。
的确,这本质上是造成辛普森悖论的原因,因为协变量被忽略,系数可能会发生变化,甚至是反向符号。
为了避免这种情况发生,我们需要使新变量与之前的变量正交。这通常发生在设计好的实验中,但是很少发生在未计划独立变量模式的数据中。
multivariable
你的意思是多个独立变量(“多元回归分析”)或多个因变量(“多元回归分析”或“MAN(C)OVA”)?