在线性回归中,假定每个预测值都是从可能值的正态分布中选取的。见下文。
但是,为什么每个预测值都假定来自正态分布呢?线性回归如何使用此假设?如果可能的值不是正态分布怎么办?
在线性回归中,假定每个预测值都是从可能值的正态分布中选取的。见下文。
但是,为什么每个预测值都假定来自正态分布呢?线性回归如何使用此假设?如果可能的值不是正态分布怎么办?
Answers:
线性回归本身不需要法线(高斯)假设,不需要任何假设就可以(通过线性最小二乘)计算估计量,并且没有此假设也很有意义。
但是,作为统计学家,我们想了解这种方法的某些特性,请回答以下问题:在某种意义上,最小二乘估计量是否最优?还是我们可以使用一些替代估计量做得更好?然后,在误差项的正态分布下,我们可以证明该估计量确实是最优的,例如,它们“无偏最小方差”或最大似然。没有正常的假设,就无法证明这一点。
另外,如果我们要构建(并分析)置信区间或假设检验的属性,则可以使用正常假设。但是,我们可以改用其他方式(例如自举)构造置信区间。然后,我们不使用正常假设,但是,如果没有这个假设,可能是我们应该使用除最小二乘估计之外的其他一些估计量,也许是一些可靠的估计量?
当然,实际上,正态分布至多是一种方便的小说。因此,真正重要的问题是,要使用上述结果,我们需要接近正常值吗?这是一个棘手的问题!最优结果并不可靠,因此,即使与正常值之间的很小偏差也会破坏最优性。这是赞成使用健壮方法的观点。关于该问题的另一个解决方案,请参阅我的答案:为什么我们应该使用t错误而不是普通错误?
另一个相关问题是, 为什么残差的正态性“根本不重要”以估计回归线?
EDIT
这个答案引起了广泛的评论讨论,这又引出了我的新问题: 线性回归:任何非正态分布给出OLS和MLE的身份? 现在终于得到了(三个)答案,并给出了非正态分布导致最小二乘估计的例子。
并没有深层原因,您可以自由更改分布假设,转向GLM或稳健回归。LM(正态分布)之所以受欢迎,是因为它易于计算,相当稳定,并且残差在实践中通常或多或少是正态的。
与任何回归一样,线性模型(=具有正态误差的回归)会搜索针对给定分布假设优化似然性的参数。参见此处,了解线性模型似然性的显式计算示例。如果采用线性模型的对数似然,结果证明它与平方和成正比,并且可以很方便地计算出其优化。
如果要拟合具有不同分布的模型,下一个教科书步骤将是提供不同分布的广义线性模型(GLM),或仍然是正态但放松独立性的通用线性模型。许多其他选项也是可能的。如果只想减少离群值的影响,则可以考虑采用稳健回归。