当误差不是正态分布时,为什么最小二乘和最大似然回归方法不等效?


10

标题说明了一切。我知道,如果模型的误差呈正态分布,则最小二乘和最大似然将为回归系数提供相同的结果。但是,如果错误不是正态分布的,会发生什么?为什么这两种方法不再等效?


您是说(a)在不满足正态性假设时使用MLE,还是(b)使用非高斯似然函数?
蒂姆

(a),当不符合常态假设时
Shuklaswag

即使不满足假设(即,观测值不是高斯分布的),...如果您使用高斯似然函数来计算MLE,则与最小二乘优化相同。优化方法在数学上是等效的,并且与正常性假设是否正确无关。
Sextus Empiricus

即使具有正态分布,最小二乘法也具有固定的方差。
CodesInChaos

Answers:


16

简短答案

多元高斯分布变量的概率密度与均值与欧几里德的平方有关均值和变量之间的距离(),即平方和。x=(x1,x2,...,xn)μ=(μ1,μ2,...,μn)|μx|22


长答案

如果将多个高斯分布乘以误差(假设均等偏差),那么将得到平方和。n

L(μj,xij)=P(xij|μj)=i=1n12πσ2exp[(xijμi)22σ2]=(12πσ2)nexp[i=1n(xijμi)22σ2]

或以方便的对数形式:

log(L(μj,xij))=nlog(12πσ2)12σ2i=1n(xijμj)2

因此,优化以最小化平方和等于最大化(log)可能性(即,多个高斯分布或多元高斯分布的乘积)。μ

它是指数结构内部的差异嵌套平方,,而其他分布则没有。(μx)exp[(xiμ)2]


例如,与泊松分布的情况进行比较

log(L)=log(μjxijxij!exp[μj])=μjlog(xij!)+log(μj)xij

当最小化以下各项时,它具有最大值:

μjlog(μj)xij

这是另一种野兽。


另外(历史)

正态分布的历史(忽略deMoivre成为二项式分布的近似值)实际上是因为发现使得MLE对应于最小二乘法(而不是最小二乘法)可以表示正态分布的MLE,首先是最小二乘法,其次是高斯分布)

请注意,高斯将“最大似然法”与“最小二乘法”联系在一起,提出了“高斯分布”,这是导致我们得出的唯一误差分布。在这两种方法之间建立联系。ex2

摘自查尔斯·亨利·戴维斯(Charles Henry Davis)的译本(圆锥形截面中围绕太阳运动的天体运动的理论。高斯的“ Theoria motus”的翻译,带有附录)...

高斯定义:

因此,概率被分配到每个错误将由的函数来表示我们应由表示。ΔΔψΔ

(由我完成的翻译)

并继续(在第177页258节中):

...据此很容易推断必须是一个常数。我们将用表示。因此,我们有用表示双曲对数的底,并假设ψΔΔk

log ψΔ=12kΔΔ+Constant
ψΔ=xe12kΔΔ
e
Constant=logx

最终(归一化并实现)在k<0

ψΔ=hπehhΔΔ


StackExchangeStrike撰写


您还记得您从何处获得这些知识吗?您介意将源添加到帖子中吗?(我很难找到一本可以很好解释这一点的教科书。)
Joooeey

@Joooeey我添加了高斯翻译报价的来源标题以及许多在线来源之一的链接。原始文本内容繁重,但是在描述正态分布历史时,您应该遇到较轻的条约。
Sextus Empiricus

似然函数在许多地方都弹出。如果您寻找获得“知识”的来源,那么我想我可以说皮尔森在1900年发表的关于卡方检验的文章,其中对多元正态分布进行了几何处理。费舍尔还多次使用几何表示法(例如,在20年代有一篇关于估计效率的文章,他比较了均方误差和平均绝对误差,并谈到了超空间中的曲面)。
Sextus Empiricus

@Joooeey在之前,我已经引用了Fisher的那篇文章。我在这里的回答是使用几何学观点来推导与费舍尔有关的t分布的性质(我相信他证明Gosset的t分布的文章或稍后发表的文章)。
Sextus Empiricus

5

因为MLE是从剩余正态分布的假设中得出的。

注意

minβ  Xβy2

没有意义概率:只要找到,最大限度地减少了损失平方功能。一切都是确定性的,那里没有随机成分。β

假设概率和可能性的概念到哪里来了

y=Xβ+ϵ

在我们将视为随机变量的情况下,正态分布。εyϵ


@Matthew Drury为什么更改矩阵符号并添加和号?
海涛杜

我认为这是很清楚的,但是如果您声称一条语句没有任何探究性含义,则不能使用带有最好被解释为随机变量的符号的表达式。您要参考的优化问题与固定数据有关,我已明确指出。
马修·德鲁里

5

最小二乘和最大(高斯)似然拟合始终相等。即,通过相同的系数集将它们最小化。

更改关于误差的假设会更改您的似然函数(使模型的似然性最大化等效于使误差项的似然性最大化),因此该函数将不再由同一组系数最小化。

因此,实际上两者是相同的,但理论上,当您最大化不同的可能性时,您得到的答案将不同于最小二乘


“或始终相等”?
nbro

0

一个具体的例子:假设我们采用一个简单的误差函数p(1)=。9,p(-9)= .10。如果我们得到两点,那么LS就是要通过它们。另一方面,ML将假设两个点都太高一个单位,因此将使线穿过单位向下移动的点。


2
您的示例尚不清楚;特别是,很难看到您要描述的模型或ML为什么会产生您要求的结果。您能否进一步解释这个答案?
ub

模型是y = mx + b + error,其中error的+1的几率为90%,-9的几率为10%。给定任何观察点,真实点有90%的可能性低于一个单位,而10%的可能性高于9个单位。因此,ML给出的真实点是下面的一个单位。您对此不了解吗?
累计

2
您的评论很有帮助,但您的答案仍未以任何清晰或可理解的方式描述该模型。您可以将这个解释纳入答案本身吗?这是一个很好的例子。
whuber
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.