虚拟变量陷阱问题


10

我正在运行一个大型OLS回归,其中所有自变量(大约400)都是虚拟变量。如果包括所有变量,则存在完美的多重共线性(虚拟变量陷阱),因此在运行回归之前,我必须忽略其中一个变量。

我的第一个问题是,应该忽略哪个变量?我已经读到,最好忽略许多观测值中存在的变量,而不是仅少数观测值中存在的变量(例如,如果几乎所有观测值都是“男性”或“女性”,而只有少数是“未知” ”,则省略“男性”或“女性”)。这合理吗?

在使用省略的变量进行回归之后,我能够估算出省略的变量的系数值,因为我知道我所有自变量的总体均值应为0。因此,我使用这一事实来移动所有变量的系数值。包含变量,并获得省略变量的估计值。我的下一个问题是,是否可以使用某种类似的技术来估算被忽略变量的系数值的标准误差。因为这样,我必须重新运行回归,省略其他变量(并包括我在第一次回归中省略的变量),以获取最初省略的变量的系数的标准误差估计。

最后,我注意到,我得到的系数估计值(在重新定零附近之后)根据省略的变量而略有不同。从理论上讲,最好进行多个回归,每个回归都忽略一个不同的变量,然后对所有回归的系数估计值求平均?


您能否阐明“我所有自变量的总体均值应为0”的含义,以及您如何知道这一点?
一站式

基本上,我想评估相对于平均值(所有变量的平均值)的所有变量。回归的系数相对于省略的变量。因此,当我从每个系数值中减去所有系数的平均值(包括省略的变量的系数为0)时,调整后的值现在将平均为0,并且每个系数值都可以看作是距平均值的距离。
James Davison

Answers:


8

无论您忽略哪个变量,都应获得“相同”的估计值。该系数可能会有所不同,但具体的数量或估计的期望应该是在所有车型相同。

在简单的情况下,让 X一世=1个男用,女用0。然后,我们有了模型:

Ë[ÿ一世X一世]=X一世Ë[ÿ一世X一世=1个]+1个-X一世Ë[ÿ一世X一世=0]=Ë[ÿ一世X一世=0]+[Ë[ÿ一世X一世=1个]-Ë[ÿ一世X一世=0]]X一世=β0+β1个X一世
现在,让 ž一世=1个女用。然后
Ë[ÿ一世ž一世]=ž一世Ë[ÿ一世ž一世=1个]+1个-ž一世Ë[ÿ一世ž一世=0]=Ë[ÿ一世ž一世=0]+[Ë[ÿ一世ž一世=1个]-Ë[ÿ一世ž一世=0]]ž一世=γ0+γ1个ž一世
的期望值 ÿ 女人是 β0 并且 γ0+γ1个。对于男人来说β0+β1个γ0

这些结果说明了两个模型的系数之间的关系。例如,β1个=-γ1个。使用数据进行的类似练习应表明,您获得的“不同”系数只是彼此的和与差。


4

James,首先为什么要进行回归分析,但为什么不进行ANOVA(这种分析中有很多专家可以为您提供帮助)?方差分析的优点是,您真正感兴趣的只是通过虚拟变量(唯一类别或配置文件)的组合描述的不同组的方式差异。好吧,如果您确实研究了所包含的每个类别变量的影响,那么也可以运行回归。

我认为,您在此处拥有的数据类型是从联合分析的角度描述的:对象的许多属性(性别,年龄,教育程度等)每个都有几个类别,因此您忽略了整个最大的配置文件,而不仅仅是一个虚拟变量。一种常见的做法是按如下所示对属性中的类别进行编码(此链接可能有用,您可能在此处不进行联合分析,但是编码类似):假设您有ñ 类别(三个,如您所建议的,男性,女性,不知名),那么前两个代码照常编码,您包括两个假人(男性,女性), 1个0 如果是男性 01个 如果是女性,并且 -1个-1个如果未知。这样,结果的确将放置在截距项附近。但是,您可以采用其他方式进行编码,但是会失去上述解释优势。综上所述,您从每个类别中删除一个类别 ,并以描述的方式对观察结果进行编码。您也包括拦截词。

忽略最大的个人档案的类别对我来说似乎很不错,尽管不是那么重要,但至少我认为这不是空白。由于您以特定的方式对变量进行编码,因此所包含的虚拟变量(包括男性和女性,都可以通过F检验进行检验)的联合统计意义暗示了被省略变量的重要性。

结果可能会略有不同,但是可能是错误的编码会影响结果吗?


如果我的写作不清楚,请原谅,这是在立陶宛的午夜。
Dmitrij Celov'3

为什么是未知数(-1,-1)而不是(0,0)?
siamii

1

在不了解分析确切性质的情况下,您是否考虑过效果编码?这样,每个变量都将代表该特征/属性对总体总体平均值的影响,而不是某些特定的省略类别。我相信您仍然会缺少类别/属性之一的系数-您为-1分配的系数。尽管如此,对于如此众多的虚拟对象,我认为相对于任何省略的特定类别而言,平均数将构成一个更有意义的比较组。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.