线性回归如何使用正态分布?


26

在线性回归中,假定每个预测值都是从可能值的正态分布中选取的。见下文。

但是,为什么每个预测值都假定来自正态分布呢?线性回归如何使用此假设?如果可能的值不是正态分布怎么办?

在此处输入图片说明


2
只有错误遵循正态分布(这意味着给定X的Y的条件概率也正态)。这可能是传统的,因为与中心极限定理有关的原因。但是您可以用任何对称概率分布代替正态,并通过最小二乘法获得相同的系数估计值。但是不同的是残留标准误差,拟合优度和验证假设的方式。
肯恩2015年

4
正常假设主要是推论-假设检验,CI,PI。如果您做出不同的假设,则至少在小样本中,这些假设将有所不同。
Glen_b-恢复莫妮卡2015年

7
顺便说一句,对于普通的线性回归,您的图应垂直绘制法线,而不是对角线。
Glen_b-恢复莫妮卡2015年

Answers:


29

线性回归本身不需要法线(高斯)假设,不需要任何假设就可以(通过线性最小二乘)计算估计量,并且没有此假设也很有意义。

但是,作为统计学家,我们想了解这种方法的某些特性,请回答以下问题:在某种意义上,最小二乘估计量是否最优?还是我们可以使用一些替代估计量做得更好?然后,在误差项的正态分布下,我们可以证明该估计量确实是最优的,例如,它们“无偏最小方差”或最大似然。没有正常的假设,就无法证明这一点。

另外,如果我们要构建(并分析)置信区间或假设检验的属性,则可以使用正常假设。但是,我们可以改用其他方式(例如自举)构造置信区间。然后,我们不使用正常假设,但是,如果没有这个假设,可能是我们应该使用除最小二乘估计之外的其他一些估计量,也许是一些可靠的估计量?

当然,实际上,正态分布至多是一种方便的小说。因此,真正重要的问题是,要使用上述结果,我们需要接近正常值吗?这是一个棘手的问题!最优结果并不可靠,因此,即使与正常值之间的很小偏差也会破坏最优性。这是赞成使用健壮方法的观点。关于该问题的另一个解决方案,请参阅我的答案:为什么我们应该使用t错误而不是普通错误?

另一个相关问题是, 为什么残差的正态性“根本不重要”以估计回归线?

 EDIT

这个答案引起了广泛的评论讨论,这又引出了我的新问题: 线性回归:任何非正态分布给出OLS和MLE的身份? 现在终于得到了(三个)答案,并给出了非正态分布导致最小二乘估计的例子。


最小二乘误差等效于正常假设。
Neil G

4
没有这样的矛盾。例如,高斯-马尔可夫定理说,线性最小二乘在所有线性估计量中都是最优的(至少在方差意义上),不需要任何分布假设(除了现有方差)。最小二乘是一个数值程序,可以独立于任何概率模型来定义!然后使用概率模型从统计角度分析此过程。
kjetil b halvorsen 2015年

2
@NeilG当然,法线的MLE是最小二乘,但这并不意味着最小二乘必须假设正态。另一方面,与正态性的较大偏差可能会使最小二乘成为一个不好的选择(当所有线性估计都不好时)。
Glen_b-恢复莫妮卡2015年

1
@NeilG我所说的内容丝毫不表示LS和正态性是等效的,但是您明确地说它们是等效的,因此我真的不认为我们的两个陈述都接近于重言式。
Glen_b-恢复莫妮卡2015年

1
@Neil您能证明您的陈述实际上暗示了我所说的吗?我真的没看到。
Glen_b-恢复莫妮卡

3

这种讨论如果残差是正态分布的,但y是不是?已经很好地解决了这个问题。

简而言之,对于回归问题,我们仅假设响应是正常的,条件是x的值。自变量或响应变量不必是独立的。


1
  1. 但是,为什么每个预测值都假定来自正态分布呢?

并没有深层原因,您可以自由更改分布假设,转向GLM或稳健回归。LM(正态分布)之所以受欢迎,是因为它易于计算,相当稳定,并且残差在实践中通常或多或少是正态的。

  1. 线性回归如何使用此假设?

与任何回归一样,线性模型(=具有正态误差的回归)会搜索针对给定分布假设优化似然性的参数。参见此处,了解线性模型似然性的显式计算示例。如果采用线性模型的对数似然,结果证明它与平方和成正比,并且可以很方便地计算出其优化。

  1. 如果可能的值不是正态分布怎么办?

如果要拟合具有不同分布的模型,下一个教科书步骤将是提供不同分布的广义线性模型(GLM),或仍然是正态但放松独立性的通用线性模型。许多其他选项也是可能的。如果只想减少离群值的影响,则可以考虑采用稳健回归。


0

再次查看问题后,我认为没有理由使用正态分布,除非您要对回归参数进行某种推断。您可以应用线性回归,而忽略噪声项的分布。


2
对我来说没有多大意义。
SmallChess,2015年

0

(xi,yi)y=βx+cβi(yiiβxic)2ηi=yi(βxi+c)βββββ

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.