我有一个关于逻辑回归和线性回归中忽略的变量偏差的问题。
说我省略了线性回归模型中的一些变量。假设那些省略的变量与我包含在模型中的变量不相关。这些遗漏的变量不会使我的模型中的系数产生偏差。
但是在逻辑回归中,我才知道这不是真的。即使省略的变量与包含的变量不相关,省略的变量也会使包含的变量的系数产生偏差。我找到了有关该主题的论文,但无法做出正面或反面的结论。
偏差显然总是朝着零。谁能解释这是如何工作的?
我有一个关于逻辑回归和线性回归中忽略的变量偏差的问题。
说我省略了线性回归模型中的一些变量。假设那些省略的变量与我包含在模型中的变量不相关。这些遗漏的变量不会使我的模型中的系数产生偏差。
但是在逻辑回归中,我才知道这不是真的。即使省略的变量与包含的变量不相关,省略的变量也会使包含的变量的系数产生偏差。我找到了有关该主题的论文,但无法做出正面或反面的结论。
偏差显然总是朝着零。谁能解释这是如何工作的?
Answers:
如果我们检查“概率”模型,则可以更清楚地呈现“衰减偏差”的情况-但结果也会延续到逻辑回归中。
在条件概率模型(逻辑(logit),“概率”和“线性概率”模型)的下面,我们可以假设一个潜在的(不可观察的)线性回归模型:
其中是连续的不可观察变量(而X是回归矩阵)。假设误差项与回归变量无关,并且遵循密度为零左右对称的分布,在本例中为标准正态分布 F U(u )= Φ (u )。
我们假设我们所观察到的,即二元变量,是不可观察的指标功能ÿ *:
然后我们问“ 给定回归变量,取值1的概率是多少?” (即,我们正在考虑条件概率)。这是
最后的等式是由于标准累积分布函数的“反射”特性引起的,该特性来自密度函数在零附近的对称性。请注意,虽然我们认为独立的X,调理X是必要的,以治疗量X β为非随机的。
如果我们假设,那么我们得到的理论模型
现在让独立于X 1并错误地从基础回归的规范中排除。所以我们指定
进一步假设 X 2也是一个正态随机变量 X 2〜Ñ (μ 2,σ 2 2)。但这意味着
由于正态分布(以及独立性假设)的加法闭包。应用与以前相同的逻辑,这里我们有
标准化我们拥有的变量
一个可以比较模型 和 。
上述理论表达,告诉我们在那里我们的最大似然估计因为它仍然是一个一致的估计量,所以它将收敛,从某种意义上说它将收敛到模型中实际存在的理论量(当然,无论如何在某种意义上都不会找到“真相”) :
这就是“偏零”的结果。
我们使用概率模型,而不是logit(逻辑回归),因为只有在正常情况下,我们才能得出 。添加后未关闭逻辑分布。这意味着,如果我们在逻辑回归中省略了一个相关变量,我们还会创建分布错误指定,因为误差项(现在包括省略的变量)不再遵循逻辑分布。但这并不会改变偏差的结果(请参阅OP链接的论文中的脚注6)。