在回归中添加更多变量且幅度更大时,符号翻转


9

基本设置:

回归模型: y=constant+β1x1+β2x2+β3x3+β4x4+αC+ϵ 其中C是控制变量的向量。

我感兴趣的是 β 并期待 β1β2是负面的。但是,模型中存在多重共线性问题,相关系数由corr(x1x2)= 0.9345,corr(x1x3)= 0.1765,corr(x2x3)= 0.3019。

所以 x1x2是高度相关的,因此它们实际上应该提供相同的信息。我运行三个回归:

  1. 排除 x1变量; 2.排除x2变量; 3.两者兼有的原始模型x1x2

结果:
对于回归1和2,它提供了预期的符号β2β1分别且幅度相似。和β2β1 在对标准误差进行HAC校正后,两个模型中的均值在10%的水平上均显着。 β3 在两个模型中均为正,但不显着。

但是3 β1 具有预期的符号,但符号为 β2 是正的,其幅度是其两倍 β1绝对价值 而且两者β1β2无关紧要。此外,β3 与回归1和2相比减少了近一半。

我的问题是:

为什么在3中 β2 变得积极并且远大于 β1绝对价值?是否有任何统计原因β2可以翻转标志并且幅度很大吗?还是因为模型1和2遭受膨胀的遗漏变量问题β3 提供 x2对y有积极影响吗?但是然后在回归模型1和2中,β2β1 应该是积极的,而不是消极的,因为 x1x2 在回归模型3中为正。

Answers:


8

想想这个例子:

根据人们口袋中的硬币收集数据集,y变量/响应是硬币的总价值,变量x1是硬币的总数,x2是不是四分之一的硬币(或最大值)的普通硬币是用于本地的)。

很容易看出,使用x1或x2进行的回归将给出正斜率,但是当在模型中同时引入x1或x2时,x2的斜率将为负,因为增加较小硬币的数量而不增加硬币总数将意味着替换大硬币和小硬币,并降低整体价值(y)。

任何时候只要x变量相关,就可能发生相同的事情,在一个术语本身存在时和存在其他术语时,这些符号很容易相反。


3

您已经回答了自己的问题-共线性。

一点解释: x1x2高度共线。但是,当您将两者都输入回归时,回归试图控制其他变量的影响。换句话说,按住x1 常数,什么变化 x2y。但是,它们之间的联系非常紧密,这意味着这个问题很愚蠢,并且可能会发生奇怪的事情。


非常感谢。但是由于理论上的多重共线性只会夸大方差,而不会影响高度相关变量的整体预测能力,因此我认为β1x1+β2x2 模型3中的结果应类似于 β2x2 在模型1或 β1x1在模型2中,由于x1 x2与x3的成对相关性不高(实际上这是我容易混淆的部分)。但是由于相关性确实很混乱,而且在实践中,我不应该期望这一点,因为我的模型只是DGP的近似值,而与其他变量的相关性很重要。
2012年

如果您想对此进行数学运算,我强烈推荐David Belsley撰写的书籍。
彼得·富勒姆

太好了,非常感谢!!!刚从图书馆索取了书:)
2012年

2

为什么在3中,β2的符号变为正,并且绝对值比β1大得多?有没有统计上的理由使β2可以翻转符号并且幅度较大?

简单的答案是没有深层原因。

考虑的方式是,当多行方法趋于完美时,最终从拟合中获得的特定值将越来越依赖于数据的越来越小细节。如果要从相同的基础分布中采样相同数量的数据然后进行拟合,则可以获得完全不同的拟合值。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.