我正在运行一个大型OLS回归,其中所有自变量(大约400)都是虚拟变量。如果包括所有变量,则存在完美的多重共线性(虚拟变量陷阱),因此在运行回归之前,我必须忽略其中一个变量。
我的第一个问题是,应该忽略哪个变量?我已经读到,最好忽略许多观测值中存在的变量,而不是仅少数观测值中存在的变量(例如,如果几乎所有观测值都是“男性”或“女性”,而只有少数是“未知” ”,则省略“男性”或“女性”)。这合理吗?
在使用省略的变量进行回归之后,我能够估算出省略的变量的系数值,因为我知道我所有自变量的总体均值应为0。因此,我使用这一事实来移动所有变量的系数值。包含变量,并获得省略变量的估计值。我的下一个问题是,是否可以使用某种类似的技术来估算被忽略变量的系数值的标准误差。因为这样,我必须重新运行回归,省略其他变量(并包括我在第一次回归中省略的变量),以获取最初省略的变量的系数的标准误差估计。
最后,我注意到,我得到的系数估计值(在重新定零附近之后)根据省略的变量而略有不同。从理论上讲,最好进行多个回归,每个回归都忽略一个不同的变量,然后对所有回归的系数估计值求平均?