Logistic回归中的遗漏变量偏差与普通最小二乘回归中的遗漏变量偏差


17

我有一个关于逻辑回归和线性回归中忽略的变量偏差的问题。

说我省略了线性回归模型中的一些变量。假设那些省略的变量与我包含在模型中的变量不相关。这些遗漏的变量不会使我的模型中的系数产生偏差。

但是在逻辑回归中,我才知道这不是真的。即使省略的变量与包含的变量不相关,省略的变量也会使包含的变量的系数产生偏差。我找到了有关该主题的论文,但无法做出正面或反面的结论。

这是论文和一些幻灯片。

偏差显然总是朝着零。谁能解释这是如何工作的?


您是否熟悉逻辑回归模型如何从基本的“潜在变量”线性回归模型中出现?
Alecos Papadopoulos

@AlecosPapadopoulos我不是一个。什么菜
亚历克西斯

还有其他文章对此进行了讨论,但是您所链接的文章是我所知道的最简单的文章。因此,我认为我无法对此进行改进。
Maarten Buis 2014年

尊敬的帕帕多普洛斯先生:我已经读过关于潜在变量的想法。你为什么要问?
ConfusedEconometricsUndergrad 2014年

@ Alexis参见此文章stats.stackexchange.com/questions/80611/…和Wikipedia文章en.wikipedia.org/wiki/…。此方法还阐明,正是我们对基础模型的误差项做出的假设决定了我们将在概率级别获得哪种模型。再举一个例子,如果我们假设基本误差遵循统一的规律
Alecos Papadopoulos

Answers:


20

如果我们检查“概率”模型,则可以更清楚地呈现“衰减偏差”的情况-但结果也会延续到逻辑回归中。

在条件概率模型(逻辑(logit),“概率”和“线性概率”模型)的下面,我们可以假设一个潜在的(不可观察的)线性回归模型:

ÿ=Xβ+ü

其中是连续的不可观察变量(而X是回归矩阵)。假设误差项与回归变量无关,并且遵循密度为零左右对称的分布,在本例中为标准正态分布 F Uu = Φ u ÿXFüü=Φü

我们假设我们所观察到的,即二元变量,是不可观察的指标功能ÿ *ÿÿ

ÿ=1个如果ÿ>0ÿ=0如果ÿ0

然后我们问“ 给定回归变量,取值1的概率是多少?” (即,我们正在考虑条件概率)。这是ÿ1个

P(y=1X)=P(y>0X)=P(Xβ+u>0X)=P(u>XβX)=1Φ(Χβ)=Φ(Xβ

最后的等式是由于标准累积分布函数的“反射”特性引起的,该特性来自密度函数在零附近的对称性。请注意,虽然我们认为独立的X,调理X是必要的,以治疗量X β为非随机的。üXXXβ

如果我们假设,那么我们得到的理论模型Xβ=b0+b1个X1个+b2X2

(1)Pÿ=1个X=Φb0+b1个X1个+b2X2

现在让独立于X 1并错误地从基础回归的规范中排除。所以我们指定X2X1个

进一步假设 X 2也是一个正态随机变量 X 2Ñ μ 2σ 2 2。但这意味着

ÿ=b0+b1个X1个+ϵ
X2X2N(μ2,σ22)

ϵ=u+b2X2N(b2μ2,1+b22σ22)

由于正态分布(以及独立性假设)的加法闭包。应用与以前相同的逻辑,这里我们有

P(y=1X1)=P(y>0X1)=P(b0+b1X1+ϵ>0X1)=P(ϵ>b0b1X1X1)

标准化我们拥有的变量ϵ

P(y=1X1)=1P(ϵb2μ21+b22σ22(b0+b2μ2)1+b22σ22b11+b22σ22X1X1)

(2)Pÿ=1个X1个=Φb0+b2μ21个+b22σ22+b1个1个+b22σ22X1个

一个可以比较模型 1个2

上述理论表达,告诉我们在那里我们的最大似然估计b1个因为它仍然是一个一致的估计量,所以它将收敛,从某种意义上说它将收敛到模型中实际存在的理论量(当然,无论如何在某种意义上都不会找到“真相”) :

b^1个pb1个1个+b22σ22|b^1个|<|b1个|

这就是“偏零”的结果。

我们使用概率模型,而不是logit(逻辑回归),因为只有在正常情况下,我们才能得出 ϵ。添加后未关闭逻辑分布。这意味着,如果我们在逻辑回归中省略了一个相关变量,我们还会创建分布错误指定,因为误差项(现在包括省略的变量)不再遵循逻辑分布。但这并不会改变偏差的结果(请参阅OP链接的论文中的脚注6)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.