我应该为每个社区运行单独的回归,还是社区可以简单地作为聚合模型中的控制变量?


11

我正在运行带有连续资产索引变量作为DV的OLS模型。我的数据来自三个相似的社区,彼此之间的地理位置非常接近。尽管如此,我认为使用社区作为控制变量很重要。事实证明,社区在1%的水平(-4.52的t评分)上具有重要意义。社区是3个不同社区中的1个的名义/类别变量,编码为1,2,3。

我的问题是,这种高度的意义是否意味着我应该对社区进行个别回归,而不是作为一个整体。否则,使用社区作为控制变量是否可以做到这一点?


在社区中使用分层模型作为随机效应是否有意义?社区不是您的主要关注点,对吗?通过使用分层模型,您可以共享力量。
韦恩2015年

Answers:


14

该问题建议对三个相关模型进行比较。为了使比较清楚,让为因变量,让为当前社区代码,并将和分别定义为社区1和2的指示符。(这意味着为社区1和为社区2和3;社区2和为社区1和3)X { 1 2 3 } X 1 X 2 X 1 = 1 X 1 = 0 X 2 = 1 X 2 = 0YX{1,2,3}X1X2X1=1X1=0X2=1X2=0

当前分析可能是以下之一:

Y=α+βX+ε(first model)

要么

Y=α+β1X1+β2X2+ε(second model).

在这两种情况下,表示一组期望值为零的相同分布的独立随机变量。第二个模型可能是预期的模型,但第一个模型是将与问题中描述的编码相适应的模型。ε

OLS回归的输出是一组拟合参数(在其符号上用“帽子”表示)以及对误差的共同方差的估计。在第一个模型中,有一个t检验将与进行比较。在第二个模型中,有两个 t检验:一个将与进行比较,另一个将与进行比较。由于该问题仅报告一个t检验,因此让我们从检查第一个模型开始。 0 ^ β 1 0 ^ β 2 0β^0β1^0β2^0

得出结论与明显不同,对于任何社区,我们都可以估算 = =: 0ÿë[α+βX+ε]α+βXβ^0YE[α+βX+ε]α+βX

对于社区1,X=1,估计等于α+β

社区2,和估计等号α + 2 β ; 和X=2α+2β

社区3,和估计等于α + 3 βX=3α+3β

特别是,第一个模型强制社区效应处于算术级数中。如果社区编码仅是区分社区的任意方式,则此内置限制同样是任意的,并且可能是错误的。

对第二个模型的预测执行相同的详细分析是有启发性的:

社区1,其中X 2 = 0,的预测值ÿ等于α + β 1。特别,X1=1X2=0Yα+β1

Y(community 1)=α+β1+ε.

社区2,其中X 2 = 1,的预测值ÿ等于α + β 2。特别,X1=0X2=1Yα+β2

Y(community 2)=α+β2+ε.

对于社区3,其中,则Y的预测值等于α。特别,X1=X2=0Yα

Y(community 3)=α+ε.

这三个参数有效地使第二个模型具有完全的自由度,可以分别估计的三个期望值。Y 的t检验评估(1)是否 ; 也就是说,社区1和社区3之间是否存在差异;和(2)β 2 = 0 ; 也就是说,是否有社区2和3。此外,一个可以测试“对比度”之间的差异β 2 - β 1与t检验,看看社区2和1是否有所不同:这个作品,因为它们的区别是α + β 2- α +β1=0β2=0β2β1 = β 2 - β 1(α+β2)(α+β1)β2β1

现在我们可以评估三个单独回归的影响。他们将是

Y(community 1)=α1+ε1,

Y(community 2)=α2+ε2,

Y(community 3)=α3+ε3.

这相较于第二个模型,我们可以看到,应该同意α + β 1α 2应同意α + β 2α 3应该同意α。因此,就拟合参数的灵活性而言,两个模型都同样出色。但是,此模型中有关误差项的假设较弱。所有的ε 1必须是独立同分布(iid); 所有的ε 2必须是独立同分布的,并且所有的ε 3必须是独立同分布的,α1α+β1α2α+β2α3αε1ε2ε3但是不假设有关各个回归之间的统计关系。 因此,单独的回归可以提供更大的灵活性:

  • 最重要的是,分布可以从所述的不同ε 2可从所述的不同ε 3ε1ε2ε3

  • 在某些情况下,可以与相关联ε Ĵ。这些模型均未明确处理此问题,但是第三个模型(单独的回归)至少不会受到不利影响。εiεj

这种额外的灵活性意味着参数的t检验结果在第二个模型和第三个模型之间可能会有所不同。(不过,它不应导致不同的参数估计。)

要查看是否需要单独的回归,请执行以下操作:

拟合第二个模型。根据社区绘制残差图,例如,作为一组并排的箱形图或三个直方图,甚至三个概率图。寻找证据证明不同的分布形状,尤其是明显不同的方差。如果没有证据,则第二个模型应该可以。如果存在,则需要进行单独的回归。

当模型是多变量的(即,它们包括其他因素)时,可以进行类似的分析,得出类似(但更复杂)的结论。通常,执行单独的回归无异于包括与社区变量(在第二个模型中编码,而不是在第一个模型中编码)的所有可能的双向交互,并允许每个社区进行不同的错误分配。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.