线性模型异方差


10

我有以下线性模型:

线性模型残差 观察分布

为了解决残差的异方差性,我尝试对因变量应用log转换为但我仍然看到对残差具有相同的扇出效果。DV值相对较小,因此在这种情况下,取对数前的+1常数加法可能不合适。log(Y+1)

> summary(Y)
Min.   :-0.0005647  
1st Qu.: 0.0001066  
Median : 0.0003060  
Mean   : 0.0004617  
3rd Qu.: 0.0006333  
Max.   : 0.0105730  
NA's   :30.0000000

如何转换变量以改善预测误差和方差,尤其是对于最右边的拟合值?

Answers:


11

你的目标是什么?我们知道,异方差不会对我们的系数估计产生偏差;这只会使我们的标准错误不正确。因此,如果您只关心模型的拟合度,那么异方差性就无关紧要。

如果使用加权最小二乘,则可以获得更有效的模型(标准误差较小的模型)。在这种情况下,您需要估算每个观察值的方差,并通过该特定于观察值的方差的倒数来加权每个观察值(在的weights参数的情况下lm)。此估算程序会更改您的估算。

或者,要在不更改估计的情况下纠正异方差性的标准误差,可以使用可靠的标准误差。有关R应用程序,请参阅软件包sandwich

使用对数变换可以是纠正异方差性的一种好方法,但前提是您的所有值均为正,并且新模型相对于您要提出的问题提供了合理的解释。


我的主要目标是减少错误。我将不得不研究加权最小二乘,但我给人的印象是,鉴于较高拟合值的残差有规律地增加,DV转换是正确的步骤。
罗伯特·库布里克

您是什么意思“减少错误”?平均误差为0,即使看着你的情节,在你选择的任意时间,平均为0
查理

我的意思是改善模型的预测,即减少总体绝对误差和误差方差,尤其是对于较高的拟合值。
罗伯特·库布里克

1
假设您可以通过减少异方差的方式来变换。如果要预测,则必须应用该变换的逆函数,将异方差问题带回来。如果您只关心系数,则转换很好,但是如果您要预测则对您没有帮助。ÿ ÿyyy
查理

1
我猜您不想预测变换的,对吧?实际上,您的转换必须在原始比例上缩小之间的距离。您可以在转换后的比例尺上创建预测间隔,该间隔在转换后的值上具有相似的宽度,但是当您撤消转换时,预测间隔会延伸到原始比例尺上。y y yyyyy
查理

4

您可能想尝试Box-Cox转换。它是电源转换的一个版本:

˙ÿ

y{yλ1λ(y˙)λ1,λ0y˙lny,λ=0
其中是数据的几何平均值。当用作响应变量的转换时,其名义作用是使数据更接近于正态分布,而偏斜是导致数据看起来非正态的主要原因。我对散点图的直觉是需要将其应用于解释性变量和响应变量。y˙

一些较早的讨论包括:除平方根,对数等普通转换外,还使用哪些其他归一化转换?以及我应该如何转换包含零的非负数据?。您可以按照如何在R中搜索统计过程找到R代码

在哈尔伯特·怀特(Halbert White,1980)关于建立对异方差性强的推论程序的开创性工作之后,计量经济学家不再对异方差性感到困扰(事实上,统计学家F. Eicker(1967)重述了先前的故事)。请参阅我刚刚重写的Wikipedia页面


谢谢,在这一点上,我正在讨论是应用幂变换还是使用鲁棒回归来减少错误并改善预测间隔。我不知道两种技术如何比较。同样,如果我使用转换,则需要对预测值进行反转换。它看起来不像一个显而易见的公式,对吗?
罗伯特·库布里克

如果通过稳健回归表示@StasK描述的稳健标准误差,则根本不会改变残差/误差。系数与OLS完全相同,残差也完全相同。系数的标准误差会发生变化,并且通常大于OLS SE。预测间隔得到了改善,因为您现在对系数使用了正确的标准误差(尽管相对于OLS而言,它们可能更大)。如果您的目标是预测,那么您确实应该坚持线性模型,并使用我在回答中提到的技术。y
查理

@Charlie我的意思是en.wikipedia.org/wiki/Robust_regression。我对此并不陌生,但我了解稳健的回归会改变估算技术,因此残差必须不同。
罗伯特·库布里克

正确,那是另一种方法,确实会改变您的估计。我认为稳健的回归更适合异常值的情况。根据您决定使用的鲁棒回归版本和特定数据集,相对于OLS,您可以获得更大的置信区间。
查理

1

对于时间序列数据中与因变量相关的异方差问题,有一个非常简单的解决方案。我不知道这是否适用于您的因变量。假设是,而不是使用标称Y,而是将其从上一期间的当前期间更改为Y的百分比变化。例如,假设您的名义Y在最近一个时期的GDP是14万亿美元。取而代之的是计算最近一段时间内GDP的变化(假设为2.5%)。

标称时间序列始终在增长,并且总是异方差(由于值增长,误差的方差随时间增长)。变化因数序列通常是同方差的,因为因变量几乎是平稳的。


我正在使用的值是前一时期的时间序列百分比变化。Y
罗伯特·库布里克

这真是令人惊讶。通常,%变化变量不是异方差的。我想知道残差是否比我们想象的少异方差。而且,根本问题是离群值之一。我看到0.15%范围内的4或5个观察结果,如果将其删除,将使整个图形看起来不太像异方差。此外,正如其他人提到的那样,异方差不会破坏您的回归系数,而只会破坏您的置信区间和相关的标准误差。但是,从您的图表来看,CI可能不会受到太大影响。并且,可能仍然有用。
Sympa '02
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.