线性回归情况下MLE与最小二乘法之间的关系


9

Hastie和Tibshirani在其书的第4.3.2节中提到,在线性回归设置中,最小二乘法实际上是最大似然的一种特殊情况。我们如何证明这个结果?

PS:不保留任何数学细节。


2
这不是特殊情况:当错误分布正常时,它们只是相同的。
Zhanxiong

Answers:


13

线性回归模型

Y=Xβ+ϵ,其中ϵN(0,Iσ2)

YRn,和XRn×pβRp

请注意,我们的模型误差(残差)为。我们的目标是找到一个 s 向量,以最小化此错误的范数平方。ϵ=YXββL2

最小二乘

给定数据,其中每个是维的,我们试图找到:(x1,y1),...,(xn,yn)xip

β^LS=argminβ||ϵ||2=argminβ||YXβ||2=argminβi=1n(yixiβ)2

最大似然

使用上面的模型,我们可以在给定参数下将数据的可能性设置为:β

L(Y|X,β)=i=1nf(yi|xi,β)

其中是均值0和方差的正态分布的pdf 。插入:f(yi|xi,β)σ2

L(Y|X,β)=i=1n12πσ2e(yixiβ)22σ2

现在,通常在处理可能性时,在数学上更容易在继续之前记录对数(乘积变为总和,指数消失),所以让我们开始吧。

logL(Y|X,β)=i=1nlog(12πσ2)(yixiβ)22σ2

由于我们需要最大似然估计,因此我们想要找到关于上述方程式的最大值。第一项不会影响我们对的估计,因此我们可以忽略它:ββ

β^MLE=argmaxβi=1n(yixiβ)22σ2

注意,分母相对于是一个常数。最后,请注意,总和前面有一个负号。因此,找到一个负数的最大值就像找到一个没有负数的最小值。换一种说法:β

β^MLE=argminβi=1n(yixiβ)2=β^LS

回想一下,要使此方法起作用,我们必须做出某些模型假设(误差项的正态性,0均值,恒定方差)。在某些条件下,这使得最小二乘等效于MLE。请参阅此处此处以获取更多讨论。

为了完整起见,请注意该解决方案可以写成:

β=(XTX)1XTy
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.