想像
- 您使用四个数值预测变量(IV1,...,IV4)运行线性回归
- 如果仅将IV1作为预测变量,则标准beta为
+.20
- 当您还包括IV2到IV4时,IV1的标准回归系数的符号会变为
-.25
(即变为负数)。
这引起了一些问题:
- 关于术语,您是否称其为“抑制效应”?
- 您将使用什么策略来解释和理解这种影响?
- 在实践中,您是否有此类效果的示例,您如何解释和理解这些效果?
想像
+.20
-.25
(即变为负数)。这引起了一些问题:
Answers:
多重共线性是JoFrhwld提到的通常的怀疑。基本上,如果变量是正相关的,则系数将是负相关的,这可能导致其中一个系数的符号错误。
一种检查是执行主成分回归或岭回归。这样可以减少回归空间的维数,从而处理多重共线性。您最终会有偏差的估计,但可能会降低MSE和更正的信号。无论您是否获得这些特定结果,它都是一项很好的诊断检查。如果您仍然能看到符号变化,那么理论上可能会很有趣。
更新
根据约翰·克里斯蒂(John Christie)回答中的评论,这可能很有趣。关联反转(幅度或方向)是辛普森悖论,洛德悖论和抑制效应的例子。差异本质上与变量的类型有关。了解潜在现象比根据特定“悖论”或效应进行思考更为有用。对于因果关系,下面的论文很好地解释了原因,我将详细引用它们的介绍和结论以激发您的胃口。
Tu等人对三个悖论的等效性进行了分析,得出结论,当对第三个变量进行统计控制时,所有三个变量都简单地重申了任何两个变量的关联中的惊人变化。我之所以这么说并不奇怪,是因为在条件分析中,反转或幅度变化很常见。为避免两者之一,我们必须完全避免条件分析。辛普森和洛德的悖论是什么呢?抑或抑制效应,除了他们指出的明显之外,还吸引了文献中所看到的断断续续的,有时甚至是危言耸听的利益?
[...]
总而言之,尽管辛普森和相关的悖论揭示了使用统计标准指导因果分析的危险,但他们既没有对他们试图描绘的现象进行解释,也没有对如何避免这种现象的指示进行过强调。解释和解决方案在于因果推理,该因果推理依赖于背景知识而非统计标准。现在是时候停止治疗误解的体征和症状(“悖论”)了,继续从事这种疾病的治疗(“因果关系”)。我们应该正确地将注意力转向使用非实验数据进行因果分析的协变量选择的常年问题。
我相信这类影响通常是由共线性引起的(请参阅此问题)。我认为Gelman和Hill撰写的有关多层建模的书对此进行了讨论。问题是IV1
它与一个或多个其他预测变量相关,并且当所有这些预测变量都包含在模型中时,它们的估计就变得不稳定。
如果系数翻转是由于共线性引起的,那么报告并不是真的很有趣,因为它不是由于预测变量与结果之间的关系,而是由于预测变量之间的关系。
我所看到的解决该问题的建议是残差。首先,为拟合模型IV2 ~ IV1
,然后将该模型的残差作为rIV2
。如果所有变量都相关,则应将所有变量真正残差化。您可以选择这样做
rIV2 <- resid(IV2 ~ IV1)
rIV3 <- resid(IV3 ~ IV1 + rIV2)
rIV4 <- resid(IV4 ~ IV1 + rIV2 + rIV3)
现在,用
DV ~ IV1 + rIV2 + rIV3 + rIV4
现在,的系数rIV2
代表与IV2
的相关性的独立作用IV1
。我听说如果以不同的顺序进行残差化,您将不会获得相同的结果,并且选择残差化顺序实际上是您研究中的判断依据。
O
,而您的预测变量是Income
和Father's Income
。Income
与相关的事实Father's Income
本质上很有趣,但是无论的值如何,该事实都是正确的O
。也就是说,您可以确定O
的预测变量都是共线的,而无需收集结果数据,甚至不知道结果是什么!一旦你知道这些事实不应该得到特别是更有趣的O
是真的Education
。
参见辛普森悖论。简而言之,将交互作用添加到模型后,观察到的主要效果可能会逆转。在链接的页面上,大多数示例都是分类的,但是页面顶部有一个图,您可以不断想象。例如,如果您有一个分类连续预测器,那么如果添加了分类连续预测器,则连续预测器可以轻松翻转符号,并且在每个类别内该符号与总分不同。