如果我在线性回归模型中重复每个样本观察值,然后重新运行回归,将如何影响结果?


15

假设我有N个观测值,可能是多个因素,并且我将每个观测值重复两次(或M次),那么对于这组新的NM大小的回归与仅对原始观测值的回归相比会如何?

Answers:


13

从概念上讲,您没有添加“新”信息,但是您可以更精确地“了解”该信息。

因此,这将导致相同的回归系数和较小的标准误差。

例如,在Stata中,expand x函数将每个观察值重复x次。

sysuse auto, clear
regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515    .001586    -2.43   0.018    -.0070138   -.0006891
      length |  -.0795935   .0553577    -1.44   0.155    -.1899736    .0307867
       _cons |   47.88487    6.08787     7.87   0.000       35.746    60.02374
------------------------------------------------------------------------------

expand 5

regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515   .0006976    -5.52   0.000    -.0052232   -.0024797
      length |  -.0795935   .0243486    -3.27   0.001    -.1274738   -.0317131
       _cons |   47.88487   2.677698    17.88   0.000     42.61932    53.15043
------------------------------------------------------------------------------

如您所见,在扩展模型中,以前微不足道的系数(长度)在统计上变得有意义,代表了您“知道”所知道内容的精度。


是的,标准错误确实的确下降了。一些建议为此使用加权线性回归。.您是否使用一种方法来解决此问题?
BBDynSys

3

普通线性回归解决了这个问题

w=精氨酸w||Xw-ÿ||2
哪里 X 是预测变量的矩阵,并且 ÿ是回应。如果您重复每个样本中号 次,它将使目标函数最小化不变(乘性因子除外) 中号)。因此,对于较大的问题最佳的权重向量将与原始较小的问题相同。

同意,但是鉴于从N到NM的变化,我认为统计数据和标准误应该改变吗?
赞宫

由于OLS假定噪声是独立的,因此标准误差将有所不同,因为自由度的数量为 中号ñ-Pñ 是原始样本大小, P 是预测变量的数量),残差矢量的长度将增加一个因子 中号
Innuo 2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.