线性回归中的误差项具有非恒定方差有什么后果?


Answers:


15

异方差性的后果是:

  1. 普通最小二乘(OLS)估计量仍然是一致的,但不再有效b^=XXXÿ

  2. 估计其中是一致的估计了您的估计的协方差矩阵。它可能既有偏见又不一致。并且在实践中,它可能会大大低估方差。V一个[R^b=XX-1个σ^2σ^2=1个ñ-ķËËb^

第一点(1)可能不是主要问题;无论如何,人们经常使用普通的OLS估算器。但是,必须解决第(2)点。该怎么办?

您需要异方差一致的标准错误。标准方法是依靠大样本假设和渐近结果,并使用以下方法估算的方差:b

V一个[R^b=1个ñXXñ-1个小号XXñ-1个
其中估计为。小号小号=1个ñ-ķ一世X一世Ë一世X一世Ë一世

这给出了异方差一致的标准误差。它们也被称为Huber-White标准误差,鲁棒标准误差,“三明治”估计量等。任何基本标准统计信息包都可以选择鲁棒标准误差。用它!

一些其他评论(更新)

如果异方差足够大,则常规OLS估计可能会遇到很大的实际问题。虽然仍然是一个一致的估计量,但您可能会有一些小样本问题,其中您的整个估计量是由一些高方差观测值驱动的。(这是@ seanv507在评论中暗示的内容)。OLS估计器的效率低下,因为它给高方差观测值的权重大于最优值。该估计可能非常嘈杂。

尝试解决效率低下的问题是,您可能也不知道误差项的协方差矩阵,因此,如果您对误差项协方差矩阵的估计是垃圾,那么使用类似GLS的方法会使情况变得更糟。

另外,我上面给出的Huber-White标准误差在小样本中可能会有很大的问题。关于这个话题有很长的文献。例如。参见Imbens和Kolesar(2016),“小样本中的稳健标准错误:一些实用建议”。

进一步学习的方向:

如果这是自学,则下一个要考虑的实际问题是聚类标准错误。这些可以纠正群集中的任意相关性。


1
马修(Matthew)-我认为,更多实际问题可以澄清第(1)点。例如,是否会将估算器“偏向”于方差较大的那些区域?-如果这些地区距离导致高杠杆率的均值相去甚远,那就是一个更大的问题。
seanv507

3
@ seanv507异方差不会使OLS估计偏差。我认为您指的是效率低下。通过对高方差观测值和低方差观测值进行平均加权,OLS估计量具有的方差要高于使用逆方差加权之类的理论上可获得的方差。是否要在估计阶段使用的估计值(即用于估计)取决于您对了解。σ一世2bσ一世2
马修·冈恩

1
Matthew,我知道它不会引入偏见(我对您和OP表示歉意,因为在引号中使用该术语:)我想不出合适的术语)。但是,我试图指出实际的含义(并建议OP希望理解这些含义)-何时/为什么第(1)点不是主要问题。您是否会不同意取决于高方差区域,而不是您凭直觉会期望/想要的区域。(直观的直线拟合将是每个区域的权重均等,而实际OLS将更多地集中于高方差区域方差区域)。b
seanv507

@ seanv507随时添加您自己的答案!
马修·冈恩

代替使用异方差稳健的标准误差(Ed Leamer在他的2010年论文“通往渐近线的坦塔罗斯”中称“ 白色冲洗”),也可以尝试通过以下方法来校正异方差的点估计(连同方差估计): WLS。这可能在您的答案中值得一提。
理查德·哈迪

3

好吧,简短的答案基本上是您的模型是错误的,即

  • 为了使普通最小二乘法成为 EST 大号 inear ù nbiased Ë stimator假定误差项的常数方差。
  • 高斯-马尔可夫假设(如果满足)可以保证系数最小二乘估计是无偏的,并且在所有无偏线性估计中具有最小方差。β

因此,在异方差问题的情况下,会发生估计方差-协方差矩阵的问题,这会导致系数的标准误差错误,进而会导致t统计量和p值出现错误。简而言之,如果您的误差项没有恒定的方差,那么普通最小二乘并不是估算的最有效方法。看一下这个相关的问题。


0

“异方差”使得难以估计预测误差的真实标准偏差。这可能导致置信区间过大或过窄(特别是对于样本外预测,如果误差的方差随时间增加,则它们将过窄)。

同样,回归模型可能过于关注数据子集。

很好的参考:线性回归的检验假设

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.