我有一个包含8000个聚类和400万个观测值的数据集。不幸的是xtlogit
,即使使用10%的子样本,我的统计软件Stata在使用其面板数据函数进行logistic回归时运行也相当缓慢。
但是,使用非面板logit
功能时,结果会更快出现。因此,我可能会受益于使用logit
修正后的数据来解决固定效应。
我相信该程序是“ Mundlak固定效应程序”的创造(Mundlak,Y。1978年。时间序列和横截面数据的合并。Econometrica,46(1),69-85)。
我在Antonakis,J.,Bendahan,S.,Jacquart,P.,&Lalive,R.(2010)的论文中找到了对此过程的直观解释。关于提出因果主张:审查和建议。《领导力季刊》 21(6)。1086-1120。我引用:
解决遗漏固定效应问题并仍然包含2级变量的一种方法是将所有1级协变量的聚类均值包括在估计模型中(Mundlak,1978)。聚类平均值可以作为回归变量包括在内,也可以从1级协变量中减去(即聚类平均居中)。聚类均值在聚类内是不变的(并且在聚类之间有所不同),并且允许对一级参数进行一致的估计,就像已包含固定效应一样(参见Rabe-Hesketh和Skrondal,2008年)。
因此,聚类平均居中似乎是解决我的计算问题的理想选择。但是,这些论文似乎是针对线性回归(OLS)的。
这种聚类平均居中的方法是否也适用于“复制”固定效应二进制逻辑回归?
一个更技术性的问题应该得出相同的答案:当数据集B是数据集A的均值中心版本时,数据集A是否xtlogit depvar indepvars, fe
等于logit depvar indepvars
数据集B?
我在这种聚类均值居中发现的另一个困难是如何应对假人。由于虚拟变量为0或1,它们在随机效应和固定效应回归中是否相同?他们不应该“居中”吗?