要了解最大似然估计，需要多少演算？

11

我正在尝试制定学习MLE的学习计划。为了做到这一点，我试图弄清楚理解MLE所需的最小微积分水平是多少。

理解微积分的基础知识（即找到函数的最小和最大）是否足以理解MLE？

estimation mathematical-statistics maximum-likelihood

— Histelheim
source

2

与往常一样，这取决于。如果您只是想了解基础知识，那么能够找到函数的极值会给您一个公平的方法（尽管在MLE的许多实际情况下，L在数字上是M，在这种情况下，您还需要一些其他技能作为一些基本演算）。

— Glen_b-恢复莫妮卡

谢谢。您能详细解释一下您提到的情况吗？听起来很有趣。

— histelheim 2013年

好的，但是现在我必须做出回答。不挂断。

— Glen_b-恢复莫妮卡

20

扩大我的评论-这取决于。如果您只是想了解基础知识，则能够找到函数的极值会给您一个公平的方法（尽管在许多实际的MLE案例中，可能性在数值上最大化，在这种情况下，您需要一些其他技能以及一些技能基本演算）。

我将忽略一些简单的案例，在这些案例中您可以获得显式的代数解。即使如此，微积分通常还是非常有用的。

我将始终保持独立。让我们以最简单的1参数优化案例为例。首先，我们看一下可以求导数并分离出参数和统计函数的情况。

考虑密度 $\rm{Gamma}(\alpha,1)$

f_{X} (x; α) = \frac{1}{Γ (α)} x^{α - 1} \exp (- x); x > 0; α > 0

$f_X(x;\alpha) = \frac{1}{\Gamma(\alpha)} x^{\alpha-1} \exp(-x); \,\,\, x>0;\,\,\alpha>0$

然后对于大小为的样本，可能性为 $n$

L (α; x) = \prod_{i = 1}^{n} f_{X} (x_{i}; α)

$\mathcal{L}(\alpha; \mathbf{x}) = \prod_{i=1}^n f_X(x_i;\alpha)$

因此对数似然为，其中。取衍生品

l (α; x) = \sum_{i = 1}^{n} \ln f_{X} (x_{i}; α) = \sum_{i = 1}^{n} \ln (\frac{1}{Γ (α)} x_{i}^{α - 1} \exp (- x_{i}))

$\mathcal{l}(\alpha; \mathbf{x}) = \sum_{i=1}^n \ln{f_X(x_i;\alpha)} \\ = \sum_{i=1}^n \ln{\left(\frac{1}{\Gamma(\alpha)} x_i^{\alpha-1} \exp(-x_i)\right)}\\$

= \sum_{i = 1}^{n} - \ln Γ (α) + (α - 1) \ln x_{i} - x_{i}

$= \sum_{i=1}^n -\ln{\Gamma(\alpha)}+(\alpha-1)\ln{x_i} -x_i\\$

= - n \ln Γ (α) + (α - 1) S_{x} - n \bar{x}

$= -n\ln{\Gamma(\alpha)}+(\alpha-1)S_x -n\bar{x}$

S_{x} = \sum_{i = 1}^{n} \ln x_{i}

$S_x=\sum_{i=1}^n\ln{x_i}$

\frac{d}{d α} l (α; x) = \frac{d}{d α} (- n \ln Γ (α) + (α - 1) S_{x} - n \bar{x})

$\frac{d}{d\alpha}\mathcal{l}(\alpha; \mathbf{x}) = \frac{d}{d\alpha} \left(-n\ln{\Gamma(\alpha)}+(\alpha-1)S_x -n\bar{x}\right)\\$

= - n \frac{Γ^{'} (α)}{Γ (α)} + S_{x}

$= -n\frac{\Gamma'(\alpha)}{{\Gamma(\alpha)}}+S_x\\$

= - n ψ (α) + S_{x}

$= -n\psi(\alpha)+S_x$

因此，如果将其设置为零并尝试求解，我们可以得到： $\hat{\alpha}$

ψ (\hat{α}) = \ln G (x)

$\psi(\hat{\alpha})=\ln{G(\mathbf{x})}\\$

其中是digamma函数，是几何均值。我们不能忘记，通常不能仅仅将导数设置为零，并确信您将找到argmax ; 您仍然必须以某种方式表明解决方案是最大的（在这种情况下是）。更一般而言，您可能会得到极小值或水平的弯曲点，即使您有局部最大值，也可能没有全局最大值（我在末尾谈到）。 $\psi(\cdot)$ $G(\cdot)$

所以，我们现在的任务是要找到价值对于这 $\hat{\alpha}$

ψ (\hat{α}) = g

$\psi(\hat{\alpha})=g$

其中。 $g=\ln{G(\mathbf{x})}$

这在基本函数方面没有解决方案，必须通过数值计算；至少我们一方面可以得到参数的函数，另一方面可以得到数据的函数。如果您没有明确的方程求解方法，则可以使用多种零查找算法（例如，即使没有导数，也有二进制部分）。

通常，它不是那么好。考虑单位密度的逻辑密度：无论是似然的argmax还是对数似然函数的argmax都不容易通过代数获得-您必须使用数值优化方法。在这种情况下，该函数表现得很好，并且Newton-Raphson方法通常应该足以找到的ML估计值。如果导数不可用或如果Newton-Raphson不收敛，则可能需要其他数值优化方法，例如黄金分割（这并不是要概述最佳可用方法，只是提及一些方法，您可能会更满意）。有可能在基本水平上遇到）。

f (x; μ) = \frac{1}{4} {sech}^{2} (\frac{x - μ}{2}) .

$f(x; \mu) =\frac{1}{4} \operatorname{sech}^2\!\left(\frac{x-\mu}{2}\right).$

μ

$\mu$

一般来说，您甚至可能做不到那么多。考虑具有中位数和单位比例的柯西： $\theta$

f_{X} (x; θ) = \frac{1}{π (1 + (x - θ)^{2})} .

$f_X(x;\theta) = \frac{1}{\pi (1 + (x-\theta)^2)}\,.$

通常，这里的可能性没有唯一的局部最大值，而有多个局部最大值。如果你找到一个当地最大，有可能是另一场更大的一个别处。（有时人们专注于确定最接近中位数的局部最大值，或诸如此类。）

对于初学者来说，很容易假设他们找到了具有函数argmax的凹拐点，但是除了多种模式（已经讨论过）之外，可能还有一些根本与拐点无关的最大值。取导数并将其设置为零是不够的；例如，考虑为上的统一估计参数。 $(0,\theta)$

在其他情况下，参数空间可以是离散的。

有时找到最大值可能会涉及很多。

那仅仅是一个单一问题的样本。当您有多个参数时，事情又会涉及更多。

— Glen_b-恢复莫妮卡
source

4

是。当然，我们不是在讨论一维函数，而是要使最大化（即似然性），因此它比一维函数要先进一些。尺寸表壳。 $\mathbb{R}^p \to \mathbb{R}$

某些具有对数的工具肯定会有所帮助，因为最大化似然对数通常比最大化似然本身容易得多。

如果您可以处理函数的二阶导数，即Hessian矩阵，则可以理解的不仅仅是简单的MLE（信息矩阵等）。 $\mathbb{R}^p \to \mathbb{R}$

— 斯蒂芬·科拉萨（Stephan Kolassa）
source