为什么线性回归中的正态性假设


15

我的问题很简单:在线性回归假设中,为什么我们选择正态作为误差项遵循的分布?为什么我们不选择其他制服,例如t或其他?


5
我们不选择正常的假设。碰巧的情况是,当误差为正态时,模型系数完全服从正态分布,并且可以使用精确的F检验来检验关于它们的假设。
AdamO

10
因为数学很容易实现,所以人们可以在现代计算机之前使用它。
纳特

1
@AdamO我不明白;您刚刚概述了我们选择它的原因。

2
@JiK如果我可以选择分布,则完全不需要统计。整个世界都是概率。
AdamO

1
@AdamO在进行统计推断时,可以为模型选择假设,因此我认为这并不意味着没有统计数据。
星期四

Answers:


29

我们确实选择其他错误分布。在许多情况下,您可以轻松地做到这一点;如果您使用最大似然估计,这将改变损失函数。这肯定是在实践中完成的。

拉普拉斯(双指数误差)对应于最小绝对偏差回归/ L1回归(许多现场讨论)。偶尔会使用t误差回归(在某些情况下,因为它们对总误差更健壮),尽管它们可能有一个缺点-可能性(因此损失的负数)可以有多种模式。

均匀的错误对应于L损失(最小化的最大偏差); 这种回归有时称为Chebyshev逼近(尽管要小心,因为存在另一种名称基本上相同的东西)。再说一次,这有时是可以做到的(实际上是为了简单回归和具有恒定分布的有限误差的小数据集,通常很容易直接在图上手动找到拟合值,尽管在实践中您可以使用线性编程方法或其他算法;实际上,LL1回归问题是彼此的对偶,这可能导致有时方便快捷方式存在一些问题)。

实际上,这是一个手工拟合数据的“均匀错误”模型的示例:

手工拟合的L-无穷大回归。 标记数据条带下方的两个“最低”点,并标记数据条带上方的两个“最高”点。

很容易识别(通过向数据滑动一条直线),四个标记点是唯一在活动集中的候选点。它们中的三个实际上将形成活动集(不久就会进行一点检查,以确定哪个三个导致了涵盖所有数据的最窄带)。在该带(标记为红色)的中心的线为然后该线的最大似然估计。

模型的许多其他选择是可能的,并且实践中已经使用了许多选择。

请注意,如果存在附加的,独立的,恒定扩散的误差,其密度为kexp(c.g(ε)),最大限度地提高的可能性将对应于最小化ig(ei,其中eii个残差。

但是,出于多种原因,最小二乘是一种流行的选择,其中许多不需要任何正态性假设。


2
好答案。您介意添加一些链接以提供更多有关如何在实践中使用这些变体的详细信息吗?
rgk

(+1)个好答案。你介意分享用于拟合的R-码 -Regression线?L
COOLSerdash

1
正如我在课文中解释的那样,我以与我描述的方法非常相似的方式手工安装了它。尽管可以使用代码轻松完成此操作,但我实际上是在MS Paint中打开了绘图,并确定了活动集中的三个点(其中两个点给出了斜率)-然后将线向第三点移动了一半(通过将垂直距离减半(以像素为单位,然后将线条向上移动那么多像素)),重点是要证明这可能是多么简单。可以教一个孩子去做。
Glen_b-恢复莫妮卡

@Glen_b确实,当我在新生物理实验室里被教导要完全做到这一点时,我还是一个少年。
Peter Leopold

9

通常使用高斯/高斯假设,因为它是计算上最方便的选择。计算回归系数的最大似然估计是一个二次最小化问题,可以使用纯线性代数解决。噪声分布的其他选择会产生更复杂的优化问题,这些问题通常必须用数字解决。特别地,问题可能是非凸的,从而产生其他复杂性。

一般而言,常态不一定是一个好的假设。正态分布的尾巴很轻,这使得回归估计值对异常值非常敏感。如果测量数据包含异常值,则诸如Laplace或Student t分布之类的替代方法通常会更好。

有关更多信息,请参见Peter Huber的开创性著作《稳健统计》。


2

使用这些假设时,基于平方误差的回归和最大似然可为您提供相同的解决方案。您还可以获得系数重要性的简单F检验,以及预测的置信区间。

总而言之,我们之所以经常选择正态分布是因为它的属性,这通常使事情变得容易。这也不是一个限制性很强的假设,因为许多其他类型的数据将表现为“正常类型”

无论如何,正如前面的答案中提到的,有可能为其他分布定义回归模型。正常恰好是最经常出现的一种


2

Glen_b已经很好地解释了OLS回归可以被推广(可能性最大化,而不是减少平方和),我们选择其他分布。

但是,为什么是正态分布的选择,以

原因是正态分布自然会在许多地方发生。这有点像我们经常看到黄金比例或斐波那契数在自然界中的各个地方“自发地”发生。

正态分布是具有有限方差的变量总和的限制分布(或者也可以使用不太严格的限制)。而且,在没有限制的情况下,它对于有限数量的变量之和也是一个很好的近似值。因此,由于许多观察到的误差是许多小的未观察到的误差的总和,因此正态分布是一个很好的近似值。

另请参阅此处正态分布的重要性

高尔顿的豆子机直观地展示了原理

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png


-1

为什么我们不选择其他发行版?

yiRxiRnxi

y^i=wxi.

意外损失通常是最明智的损失:

L=logP(yixi).

您可以将线性回归视为在上述方程式中使用具有固定方差的正态密度:

L=logP(yixi)(yiy^i)2.

这导致权重更新:

wL=(y^iyi)xi


通常,如果您使用其他指数族分布,则此模型称为广义线性模型。不同的分布对应于不同的密度,但是可以通过更改预测,权重和目标来更轻松地将其形式化。

WRn×k

u^ig(Wxi)

g:RkRkyi ui=T(yi)Rk

每个链接函数和足够的统计信息都对应于一个不同的分布假设,这就是您的问题所在。要了解为什么,让我们看一下带有自然参数的连续值指数族的密度函数η

f(z)=h(z)exp(ηT(z)g(η)).

ηwxiz=yi

WL=Wlogf(x)=(g(Wxi))xiT(yi)xi=(u^iui)xi,
which has the same nice form as linear regression.


As far as I know, the gradient log-normalizer can be any monotonic, analytic function, and any monotonic, analytic function is the gradient log-normalizer of some exponential family.


This is very short and too cryptic for our standards, please also explain surprisal.
kjetil b halvorsen

1
"each link function corresponds to a different distributional assumption" this is very vague. The link function does not have to do with generalizing to different distributional assumptions, but with generalizing the (linear) part that describes the mean of the distribution.
Sextus Empiricus

1
The linked article contains in section '3.1 Normal distribution' > "More generally, as shown in Nelder (1968), we can consider models in which there is a linearizing transformation f and a normalizing transformation g" I do not know what your gradient log-normalizer refers to, and maybe you are speaking about this normalizing transformation? But, that is not the link function. The link function in GLM relates to the linearizing transformation.
Sextus Empiricus

1
Typically certain link functions are used with certain distributional assumptions. But this is not a necessity. So my distributional assumptions are normal in that example, and not Poisson (that was intentional). Some better (more practical and well known) examples are binomial/Bernouilli distributed variables where people work with a probit model or a logit model, thus different link functions but the same (conditional) distributional assumption.
Sextus Empiricus

1
@Neil G: I'm the lazy one? You could easily have included surprisal in the original post, yes? Also, when I am making such comments, is is more for the site than for myself. This site is supposed to be self-contained. I could have/did guess the meaning (even if it is nonstandard terminology in statistics), as you can see from my answer here, entropy
kjetil b halvorsen
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.