在WLS回归过程中,我有些失落。我已经获得了数据集,我的任务是测试是否存在异方差性,如果可以,我应该运行WLS回归。
我进行了测试,并发现了异方差的证据,因此我需要运行WLS。有人告诉我WLS基本上是转换模型的OLS回归,但是我对找到转换函数有些困惑。我读过一些文章,建议转换可以是OLS回归的残差平方的函数,但是如果有人可以帮助我走上正确的道路,我将不胜感激。
在WLS回归过程中,我有些失落。我已经获得了数据集,我的任务是测试是否存在异方差性,如果可以,我应该运行WLS回归。
我进行了测试,并发现了异方差的证据,因此我需要运行WLS。有人告诉我WLS基本上是转换模型的OLS回归,但是我对找到转换函数有些困惑。我读过一些文章,建议转换可以是OLS回归的残差平方的函数,但是如果有人可以帮助我走上正确的道路,我将不胜感激。
Answers:
加权最小二乘(WLS)回归不是转换后的模型。取而代之的是,您只是将每个观察值视为或多或少地了解和Y之间的潜在关系。信息量大的那些点被赋予更多的“权重”,而信息量少的那些点被赋予较小的权重。没错,加权最小二乘(WLS)回归在技术上仅在权重已知为先验时才有效。
但是,(OLS)线性回归对异方差性非常可靠,因此,如果您的估计值在标准范围之内,WLS也是如此。OLS回归的经验法则是,只要最大方差不大于最小方差的4倍,它就不会受到异方差性的太大影响。例如,如果残差/误差的方差随增大,那么如果高端残差的方差小于低端残差方差的四倍,则可以。这意味着如果您的体重使您处于该范围内,则表示您相当安全。有点像马蹄铁和手榴弹情况。结果,您可以尝试估计将残差方差与预测变量水平相关的函数。
有关如何进行这种估算,存在几个问题:
请记住,权重应该是方差的倒数(或您使用的任何值)。
如果您的数据仅出现在离散级别(例如在实验或ANOVA中),那么您可以直接在每个级别上估计方差并使用它。如果估计值是连续变量的离散水平(例如0 mg,10 mg,20 mg等),则可能需要平滑这些值,但可能不会有太大的区别。
但是,由于平方,方差的估计非常容易受到离群值和/或高杠杆点的影响。如果您的数据在分布不均,或者您的数据相对较少,则不建议直接估算方差。最好估计一些与方差相关的东西,但它更可靠。通常的选择是使用与条件均值的偏差的绝对值的平方根。(例如,在R中,将显示这些相对于的散点图,称为“扩展水平图”,以帮助您诊断潜在的异方差;请在此处查看我的答案。)更强大的方法可能是使用条件四分位数范围,或者有条件的plot(model, which=2)
中位数与中位数的绝对偏差。
如果是一个连续变量,典型的策略是使用简单的OLS回归来获得残差,然后将[ 3 ]中的一个函数(很可能是根的绝对偏差)回归到。该函数的预测值用于与该点关联的权重。
从OLS回归的残差中获取权重是合理的,因为即使存在异方差,OLS也没有偏见。但是,这些权重取决于原始模型,并且可能会更改后续WLS模型的拟合度。因此,您应该通过比较两个回归的估计beta来检查结果。如果它们非常相似,则可以。如果WLS系数与OLS系数不同,则应使用WLS估计值手动计算残差(WLS拟合中报告的残差将考虑权重)。在计算了一组新的残差之后,再次确定权重并在第二次WLS回归中使用新的权重。应该重复此过程,直到两组估计的beta足够相似为止(尽管这样做一次并不常见)。
如果此过程使您有些不舒服,因为估计了权重,并且因为权重取决于较早的,不正确的模型,则另一个选择是使用Huber-White“三明治”估计器。即使存在异方差,无论这种情况有多严重,这都是一致的,并且也不取决于模型。这也可能减少麻烦。
我在这里展示了加权最小二乘的简单版本以及三明治式SE的使用:异方差数据的单向方差分析的替代方法。