作为新观测数据流的方式递归更新MLE

一般问题

假设我们有iid数据 $x_1$ ，，... 流进来。我们要递归计算的最大似然估计。也就是说，已经计算了我们观察到一个新的，并希望以某种方式逐步更新我们的估算值而不必从头开始。是否有通用算法？ $x_2$ $\sim f(x\,|\,\boldsymbol{\theta})$ $\boldsymbol{\theta}$

{\hat{θ}}_{n - 1} = \underset{θ \in R^{p}}{\arg max} \prod_{i = 1}^{n - 1} f (x_{i} | θ),

$\hat{\boldsymbol{\theta}}_{n-1}=\underset{\boldsymbol{\theta}\in\mathbb{R}^p}{\arg\max}\prod_{i=1}^{n-1}f(x_i\,|\,\boldsymbol{\theta}),$

x_{n}

$x_n$

{\hat{θ}}_{n - 1}, x_{n} \to {\hat{θ}}_{n}

$\hat{\boldsymbol{\theta}}_{n-1},\,x_n \to \hat{\boldsymbol{\theta}}_{n}$

玩具实例

如果 $x_1$ ， $x_2$ ，... $\sim N(x\,|\,\mu, 1)$ ，则

{\hat{μ}}_{n - 1} = \frac{1}{n - 1} \sum_{i = 1}^{n - 1} x_{i} and {\hat{μ}}_{n} = \frac{1}{n} \sum_{i = 1}^{n} x_{i},

$\hat{\mu}_{n-1} = \frac{1}{n-1}\sum\limits_{i=1}^{n-1}x_i\quad\text{and}\quad\hat{\mu}_n = \frac{1}{n}\sum\limits_{i=1}^nx_i,$ 因此

{\hat{μ}}_{n} = \frac{1}{n} [(n - 1) {\hat{μ}}_{n - 1} + x_{n}] .

$\hat{\mu}_n=\frac{1}{n}\left[(n-1)\hat{\mu}_{n-1} + x_n\right].$

maximum-likelihood online

— cz
source

不要忘了这个问题的反面：随着旧观测值的删除，更新估算器。

— Hong Ooi

递归最小二乘（RLS）是对此问题的一个特定实例的（非常著名的）解决方案，不是吗？通常，我认为随机过滤文献可能对您有所帮助。

— jhin

Answers:

请参阅充足性的概念，尤其是最少的足够统计量。在许多情况下，您需要整个样本才能在给定样本量下计算估计值，而没有简单的方法可以从一个较小的样本中进行更新（即没有方便的常规结果）。

如果分布是指数族（在某些其他情况下；制服是一个很好的例子），那么有足够好的统计量可以在许多情况下以您寻求的方式进行更新（即，使用许多常用分布，将有快速更新）。

我不知道有一个直接计算或更新的方法是对柯西分布的位置进行估计（例如，使用单位比例尺将问题简化为简单的单参数问题）。但是，可能会有更快的更新，但我根本没有注意到-我不能说我在考虑更新情况时确实做了很多事情。

另一方面，对于通过数值优化方法获得的MLE，在许多情况下，先前的估计值将是一个很好的起点，因为通常情况下，先前的估计值将非常接近更新的估计值。至少从这种意义上讲，通常应该可以进行快速更新。但是，即使这不是一般情况，对于多模式似然函数（再次参见Cauchy示例），新的观察结果可能会导致最高模式与上一个模式存在一定距离（即使每个模式的位置最大的几种模式之间的变化不大，其中最高的一种可能会发生变化）。

— Glen_b-恢复莫妮卡
source

谢谢！关于MLE可能在中途切换模式的观点特别有助于理解为什么通常很难做到这一点。

— jcz

您可以通过上述单位比例的柯西模型和数据（0.1,0.11,0.12,2.91,2.921,2.933）亲自看到这一点。模式位置的对数似然度接近0.5和2.5，（略高）的峰值是接近0.5的峰。现在进行下一个观察10，两个峰中的每个峰的模态几乎不动，但第二个峰现在高得多。发生这种情况后，梯度下降将无济于事，就像重新开始一样。如果您的人口是两个相似大小的子群在不同位置的混合，则可能会发生这种情况-。... ctd

— Glen_b-恢复莫妮卡（Monica）

ctd ...即使在相对较大的样本中也是如此。在正确的情况下，模式切换可能会经常发生。

— Glen_b-恢复莫妮卡

防止多模态的条件是，对于所有

参数向量，似然性应为对数凹形。但是，这暗示了模型的局限性。

n

$n$

— 伊夫（Yves）

是，对的; 我与自己辩论是否在答案中讨论这一点。

— Glen_b-恢复莫妮卡

在机器学习中，这称为在线学习。

正如@Glen_b所指出的，在某些特殊情况下，可以更新MLE而不需要访问所有先前的数据。正如他还指出的那样，我不认为找到MLE有通用的解决方案。

寻找近似解的一种相当通用的方法是使用诸如随机梯度下降之类的方法。在这种情况下，随着每个观测的出现，我们将针对该单个观测计算梯度，并在该方向上移动很小的参数值。在某些条件下，我们可以证明这将以很高的概率收敛到MLE的邻域。随着我们减小步长，邻居越来越紧密，但是收敛需要更多数据。但是，与封闭式更新相比，这些随机方法通常需要更多的摆弄才能获得良好的性能。

— 悬崖AB
source