重要的预测变量在多元逻辑回归中变得不重要


11

当我在两个单独的(单变量)逻辑回归模型中分析变量时,得到以下信息:

Predictor 1:    B= 1.049,    SE=.352,    Exp(B)=2.85,    95% CI=(1.43, 5.69),    p=.003
   Constant:    B=-0.434,    SE=.217,    Exp(B)=0.65,                            p=.046

Predictor 2:    B= 1.379,    SE=.386,    Exp(B)=3.97,    95% CI=(1.86, 8.47),    p<.001
   Constant:    B=-0.447,    SE=.205,    Exp(B)=0.64,                            p=.029

但是,当我将它们输入到单个多元逻辑回归模型中时,我得到:

Predictor 1:    B= 0.556,    SE=.406,    Exp(B)=1.74,    95% CI=(0.79, 3.86),    p=.171
Predictor 2:    B= 1.094,    SE=.436,    Exp(B)=2.99,    95% CI=(1.27, 7.02),    p=.012
   Constant:    B=-0.574,    SE=.227,    Exp(B)=0.56,                            p=.012

两种预测因子都是二分的(绝对的)。我已经检查了多重共线性。

我不确定是否提供了足够的信息,但是我无法理解为什么预测变量1从有效变为非有效,以及多元回归模型中的优势比为何如此不同。任何人都可以对发生的事情提供基本的解释吗?


2
多元变量通常表示多个因变量-您的意思是多个预测变量,对吗?通常将其称为多元回归。
2012年

1
同样,来自不同逻辑回归模型的通常也不具有可比性。这是因为规模发生了变化-这是一个微妙的问题,但是基本思想是总方差(逻辑回归自然产生的潜在规模-参见en.wikipedia.org/wiki/…)在各个模型之间不是固定的,因此,尽管模型并不一定能解释统计显着性的变化,但您不应期望模型之间的系数相同。您如何检查两个预测变量之间的依赖性?β
2012年

啊,好的,谢谢。我通过对spss进行线性回归检查了共线性诊断,并检查了公差和VIF-这是正确的吗?
安妮2012年

很好的评论@Macro。我隐约记得有关解决此问题的方法的阅读,但我不记得在哪里。
彼得·弗洛姆

1
@PeterFlom,您可以做的一件事就是通过线性预测变量的方差来缩放系数(加上,即标准logistic分布的方差)-这使它们处于相同的比例。当然,一旦您这样做,它们就不再可以解释为优势比。π2/3
2012年

Answers:


20

有多种原因(其中没有一个与逻辑回归特别相关,但可能发生在任何回归中)。

  1. 自由度的损失:当试图从给定的数据集中估计更多参数时,您实际上是在询问更多的参数,这会降低精度,从而导致较低的t统计量,从而导致较高的p值。
  2. 回归变量的相关性:您的回归变量可能彼此相关,从而有效地测量了相似的事物。假设您的logit模型是根据经验和年龄来解释劳动力市场状况(工作/不工作)。个体而言,这两个变量都与地位呈正相关,因为经验更丰富/年龄更大(出于争论的缘故排除了非常老的员工)的员工比新毕业生更容易找到工作。现在,显然,这两个变量密切相关,因为您需要年纪较大才能拥有更多经验。因此,这两个变量基本上“竞争”用于解释状态,这可能会导致两个变量“丢失”,尤其是在小样本中,因为当控制另一个变量时,没有一个效应可能足够强并且足够精确地估计出重要估计。本质上,您在问:保持年龄不变,再经历一年会产生什么积极影响?您的数据集中可能几乎没有员工可以回答该问题,因此影响的估算是不精确的,从而导致较大的p值。

  3. 错误指定的模型:t统计量/ p值的基础理论要求您估计正确指定的模型。现在,如果仅对一个预测变量进行回归,则单变量模型遭受遗漏的变量偏差的可能性就很高。因此,所有关于p值行为的押注都没有。基本上,当模型不正确时,您必须小心信任它们。


感谢您的彻底和快速的回​​复。我将尝试首先消除任何多重共线性。我已经运行了变量之间的相关性,并发现了一些相关性,并且我将尝试运行方差膨胀因子,因为我听说这也是检查这一点的好方法。如果确实只是一个自由度问题,那么我能做些什么吗?我可以解释这种情况的发生,但是如果显着性下降得如此严重,它似乎会损害回归的完整性。
山姆·奥布莱恩

3
@ SamO'Brien:请注意,如果您的目标确实是您所说的那样-“试图确定“哪些自变量可能引起响应”-,则忽略某些仅仅是因为它们与其他变量相关联以“消除任何多重共线性”是不会帮助实现这一目标。
Scortchi -恢复莫妮卡

1
是否有可能以其他方式绕过,即同一预测变量在简单回归中不显着但在多元回归中显着?
gkcn

8

没有特殊原因为什么应该发生这种情况。多元回归提出了与简单回归不同的问题。特别是,多元回归(在这种情况下为多元逻辑回归)询问因变量和自变量之间的关系,并控制其他自变量。简单回归询问因变量和(单个)自变量之间的关系。

如果您添加研究的背景(例如,这些变量是什么?),则可能会给出更具体的答案。同样,鉴于您所用的所有三个变量都是二分法,您可以很容易地向我们展示数据……只需总结以下八行即可:

DVIV1IV2CountAAA10AAB20

等等

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.