什么时候需要在回归模型中包括因变量的滞后,哪个滞后?


14

我们要用作因变量的数据如下所示(它是计数数据)。我们担心,由于它具有周期性成分和趋势结构,因此回归会以某种方式出现偏差。

在此处输入图片说明

如果有帮助,我们将使用负二项式回归。数据是一个平衡面板,每个人(状态)一个虚拟。所示图像显示了所有状态的因变量之和,但仅大多数状态具有类似的行为。我们正在考虑一种固定效应模型。因变量之间的相关性不是很高,研究的一部分是在这些变量之间找到一个意料之外的关系,因此弱关系实际上是件好事。

  1. 不包括因变量的滞后变量的确切风险是什么?
  2. 如果需要包括一个,是否有测试可以知道哪个。

正在R中执行。

注意:我确实阅读了这篇文章,但对我们的问题没有帮助。

Answers:


14

如果您有一个针对凶杀案的以眼还眼的报复模型,那么动态面板模型可能很有意义。例如,如果杀人率在很大程度上是由帮派争斗驱动,在一次谋杀很可能是死亡的一个函数在牛逼- 1,或其他滞后。 tt1

我将无序回答您的问题。假设DGP是

yit=δyit1+xitβ+μi+vit,

其中误差v彼此独立,并且彼此独立。您有兴趣进行δ = 0(问题2)的测试。μvδ=0

如果使用OLS,则很容易看到与误差的第一部分相关,即使v中没有序列相关,这也会导致OLS有偏差和不一致。我们需要更复杂的东西来进行测试。yit1v

你可以尝试接下来的事情就是固定效应估计与改造,在那里你减去每个单位的平均转换数据中ˉ ÿ,从每个观察。这会抹去μ,但此估计量会受到Nickell偏差的影响,该偏差不会随着观察数N的增长而消失,因此对于大N和小T面板而言,不一致。但是,随着T的增长,您将获得δβ的一致性。Judson和Owen(1999)N = 20的情况下进行了一些模拟yy¯iμNNTTδβ Ť = 5 10 20 30,发现偏压中增加 δ和在降低 Ť。但是,即使对于 T = 30,偏差也可能高达真实系数值的 20 。那真是个坏消息熊!因此,根据面板的尺寸,您可能要避免使用FE估算器内的值。如果 δ > 0,则偏差为负,因此 y的持续性被低估了。如果回归变量与滞后相关,则 β也将被偏置。N=20,100T=5,10,20,30δTT=3020%δ>0yβ

另一种简单的FE的方法是一阶差分的数据以去除固定的效果,以及使用到仪器为Δ ÿ - 1 = ÿ - 1 - Ÿ - 2。您还可以将x i tx i t 1用作自身的工具。经典的参考文献是安德森和萧(1981)。此估计量是一致的(只要解释性X s是预先确定的,并且yit2Δyit1=yit1yit2xitxit1X原始误差项没有序列相关性),但是效率不高,因为它没有使用所有可用的力矩条件,并且没有利用误差项现在有所不同这一事实。这可能是我的首选。如果您认为遵循AR(1)过程,则可以使用y的第三和第四滞后。vy

Arellano和Bond(1991)推导了一种更有效的广义矩量估计方法(GMM),此后由于放宽了一些假设而得到了扩展。Baltagi 小组讨论的书的第8章很好地回顾了这些文献,尽管据我所知,它并不涉及滞后选择。这是最新的指标,但在技术上要求更高。

我认为R中的plm软件包已经内置了其中一些。动态面板模型自版本10开始就已在Stata中使用,而SAS 至少具有GMM版本。这些都不是计数数据模型,但是根据您的数据可能并不重要。但是,这是Stata中GMM动态泊松面板模型的一个示例

yβ


所以,你使用水平的工具,当你有一个差分序列,其差异,当你有一个在水平的系列
Andy W

iΔyt2=yt2yt3yt2Δyt1=yt1yt2
Dimitriy V. Masterov
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.