最大似然估计-多元高斯


20

语境

多元高斯在机器学习中经常出现,并且以下结果在许多没有衍生的机器学习书籍和课程中使用。

给定以m × p尺寸 的矩阵形式给出的数据,如果我们假设数据遵循 参数均值为μp × 1)和协方差矩阵Σp × p)的p变量高斯分布,则最大似然估计为由:Xm×ppμp×1Σp×p

  • μ^=1mi=1mx(i)=x¯
  • Σ^=1mi=1m(x(i)μ^)(x(i)μ^)T

我了解多变量高斯知识是许多ML课程的先决条件,但是一劳永逸地完全自成一题,这对我很有帮助,因为我感到许多自学者都在关注统计数据。 stackexchange和math.stackexchange网站寻找答案。


多元高斯方程的最大似然估计的全推导是什么


例子:

这些讲义(第11页)上的线性判别分析,或这些的使用结果,并承担以前的知识。

也有一些帖子被部分回答或关闭:

Answers:


24

推导最大似然估计

假设我们有随机向量,每个尺寸的pX 1 X 2 X ,其中每个随机向量可以跨越被解释为观测(数据点)p的变量。如果每个X i 作为多元高斯向量被iid表示:mpX(1),X(2),...,X(m)pX(i)

X(i)Np(μ,Σ)

参数未知。为了获得他们的估计,我们可以使用最大似然方法并使对数似然函数最大化。μ,Σ

注意,由随机向量的独立性,数据的联合密度是各个密度的乘积,即m i = 1 f X i x i ; μ Σ。取对数给出对数似然函数{X(i),i=1,2,...,m}i=1mfX(i)(x(i);μ,Σ)

l(μ,Σ|x(i))=logi=1mfX(i)(x(i)|μ,Σ)=log i=1m1(2π)p/2|Σ|1/2exp(12(x(i)μ)TΣ1(x(i)μ))=i=1m(p2log(2π)12log|Σ|12(x(i)μ)TΣ1(x(i)μ))

l(μ,Σ;)=mp2log(2π)m2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)

派生μμ^

为了获得关于的导数并等于零,我们将使用以下矩阵演算恒等式:μ

如果瓦特 不依赖于是对称的。wTAww=2AwwAA

μl(μ,Σ|x(i))=i=1mΣ1(μx(i))=0Since Σ is positive definite0=mμi=1mx(i)μ^=1mi=1mx(i)=x¯

通常称为样本均值向量。

推导ΣΣ^

推导协方差矩阵的MLE需要更多的工作,并需要使用以下线性代数和微积分属性:

  • 在矩阵乘积的循环排列下,迹线是不变的:tr[ACB]=tr[CAB]=tr[BCA]
  • 由于是标量,因此我们可以追踪它并获得相同的值:x t A x = t r [ x T A x ] = t r [ x t x A ]xTAxxtAx=tr[xTAx]=tr[xtxA]
  • Atr[AB]=BT
  • Alog|A|=AT

结合这些属性,我们可以计算

AxtAx=Atr[xTxA]=[xxt]T=xTTxT=xxT

向量与自身的外积。x

现在,我们可以重新写数似然函数和计算导WRT (注ç为常数)Σ1C

l(μ,Σ|x(i))=Cm2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)=C+m2log|Σ1|12i=1mtr[(x(i)μ)(x(i)μ)TΣ1]Σ1l(μ,Σ|x(i))=m2Σ12i=1m(x(i)μ)(x(i)μ)T  Since ΣT=Σ

等于零并求解Σ

0=Σ-一世=1个X一世-μX一世-μŤΣ^=1个一世=1个X一世-μ^X一世-μ^Ť

资料来源


欢迎提供其他证明,更紧凑的形式或直观的解释!
Xavier Bourret Sicotte,

的推导中,为什么Σ需要为正定?Σ是可逆的就足够了吗?对于一个可逆矩阵X = 0,只有当X = 0μΣΣ一种一种X=0X=0
Tom Bennett

为了明确起见,是一个m × m矩阵,可能具有表示向量之间相关性的有限对角线和非对角线分量,对吗?如果是这样,这些向量在什么意义上是独立的?另外,为什么联合概率函数等于可能性?关节密度f x y 是否等于似然乘以先验值,即f x | y f y Σm×mf(x,y)f(x|y)f(y)
Mathews24

1
@TomBennett定义西格玛矩阵为正,请参见stats.stackexchange.com/questions/52976/…作为证明。矩阵演算同一性要求矩阵是对称的,而不是正定的。但是由于正定矩阵总是对称的,所以有效
Xavier Bourret Sicotte

1
确实是的-观察值之间的独立性允许获得可能性-措辞可能不够明确-这是可能性的多元版本。事前仍然无关紧要
Xavier Bourret Sicotte

5

为一个替代证明Σ,是以衍生物相对于Σ直接:Σ^Σ

以上述对数似然来拾取:

(μ,Σ)=Cm2log|Σ|12i=1mtr[(x(i)μ)TΣ1(x(i)μ)]=C12(mlog|Σ|+i=1mtr[(x(i)μ)(x(i)μ)TΣ1])=C12(mlog|Σ|+tr[SμΣ1])
其中,Sμ=i=1m(x(i)μ)(x(i)μ)T和我们已经使用了环状和tr线性性质。为了计算/Σ我们首先观察到
Σlog|Σ|=ΣT=Σ1
由上述第四个属性决定。要采取的第二项的导数,我们需要的属性,
Xtr(AX1B)=(X1BAX1)T.
(摘自Matrix Cookbook的公式63)。与应用此B=I,我们获得
Σtr[SμΣ1]=(Σ1SμΣ1)T=Σ1SμΣ1
因为两个ΣSμ是对称的。然后
Σ(μ,Σ)mΣ1Σ1SμΣ1.
将其设置为0,并且重新排列给 Σ =1
Σ^=1mSμ.

Λ=Σ1/Σ1/Σ

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.