要了解最大似然估计,需要多少演算?


11

我正在尝试制定学习MLE的学习计划。为了做到这一点,我试图弄清楚理解MLE所需的最小微积分水平是多少。

理解微积分的基础知识(即找到函数的最小和最大)是否足以理解MLE?


2
与往常一样,这取决于。如果您只是想了解基础知识,那么能够找到函数的极值会给您一个公平的方法(尽管在MLE的许多实际情况下,L在数字上是M,在这种情况下,您还需要一些其他技能作为一些基本演算)。
Glen_b-恢复莫妮卡

谢谢。您能详细解释一下您提到的情况吗?听起来很有趣。
histelheim 2013年

好的,但是现在我必须做出回答。不挂断。
Glen_b-恢复莫妮卡

Answers:


20

扩大我的评论-这取决于。如果您只是想了解基础知识,则能够找到函数的极值会给您一个公平的方法(尽管在许多实际的MLE案例中,可能性在数值上最大化,在这种情况下,您需要一些其他技能以及一些技能基本演算)。

我将忽略一些简单的案例,在这些案例中您可以获得显式的代数解。即使如此,微积分通常还是非常有用的。

我将始终保持独立。让我们以最简单的1参数优化案例为例。首先,我们看一下可以求导数并分离出参数和统计函数的情况。

考虑密度Gamma(α,1)

fX(x;α)=1Γ(α)xα1exp(x);x>0;α>0

然后对于大小为的样本,可能性为n

L(α;x)=i=1nfX(xi;α)

因此对数似然为 ,其中。取衍生品

l(α;x)=i=1nlnfX(xi;α)=i=1nln(1Γ(α)xiα1exp(xi))
=i=1nlnΓ(α)+(α1)lnxixi
=nlnΓ(α)+(α1)Sxnx¯
Sx=i=1nlnxi

ddαl(α;x)=ddα(nlnΓ(α)+(α1)Sxnx¯)
=nΓ(α)Γ(α)+Sx
=nψ(α)+Sx

因此,如果将其设置为零并尝试求解,我们可以得到: α^

ψ(α^)=lnG(x)

其中是digamma函数,是几何均值。我们不能忘记,通常不能仅仅将导数设置为零,并确信您将找到argmax ; 您仍然必须以某种方式表明解决方案是最大的(在这种情况下是)。更一般而言,您可能会得到极小值或水平的弯曲点,即使您有局部最大值,也可能没有全局最大值(我在末尾谈到)。ψ()G()

所以,我们现在的任务是要找到价值对于这α^

ψ(α^)=g

其中。g=lnG(x)

这在基本函数方面没有解决方案,必须通过数值计算;至少我们一方面可以得到参数的函数,另一方面可以得到数据的函数。如果您没有明确的方程求解方法,则可以使用多种零查找算法(例如,即使没有导数,也有二进制部分)。

通常,它不是那么好。考虑单位密度的逻辑密度: 无论是似然的argmax还是对数似然函数的argmax都不容易通过代数获得-您必须使用数值优化方法。在这种情况下,该函数表现得很好,并且Newton-Raphson方法通常应该足以找到的ML估计值。如果导数不可用或如果Newton-Raphson不收敛,则可能需要其他数值优化方法,例如黄金分割(这并不是要概述最佳可用方法,只是提及一些方法,您可能会更满意)。有可能在基本水平上遇到)。

f(x;μ)=14sech2(xμ2).
μ

一般来说,您甚至可能做不到那么多。考虑具有中位数和单位比例的柯西:θ

fX(x;θ)=1π(1+(xθ)2).

通常,这里的可能性没有唯一的局部最大值,而有多个局部最大值。如果你找到一个当地最大,有可能是另一场更大的一个别处。(有时人们专注于确定最接近中位数的局部最大值,或诸如此类。)

对于初学者来说,很容易假设他们找到了具有函数argmax的凹拐点,但是除了多种模式(已经讨论过)之外,可能还有一些根本与拐点无关的最大值。取导数并将其设置为零是不够的;例如,考虑为上的统一估计参数。(0,θ)

在其他情况下,参数空间可以是离散的。

有时找到最大值可能会涉及很多。

那仅仅是一个单一问题的样本。当您有多个参数时,事情又会涉及更多。


4

是。当然,我们不是在讨论一维函数,而是要使最大化(即似然性),因此它比一维函数要先进一些。尺寸表壳。RpR

某些具有对数的工具肯定会有所帮助,因为最大化似然对数通常比最大化似然本身容易得多。

如果您可以处理函数的二阶导数,即Hessian矩阵,则可以理解的不仅仅是简单的MLE(信息矩阵等)。RpR

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.