MLE vs MAP估计,什么时候使用?


14

MLE =最大似然估计

MAP =最大后验

MLE是直观/天真的,因为它仅从给定参数(即似然函数)的观察概率开始,并尝试找到与观察最相符的参数。但是它没有考虑先验知识。

MAP似乎更合理,因为它确实考虑了贝叶斯规则中的先验知识。

这是一个相关的问题,但答案并不彻底。 /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d

因此,我认为MAP更好。那正确吗?那我什么时候该使用呢?

Answers:


18

如果将先验概率作为问题设置的一部分,请使用该信息(即使用MAP)。如果没有给出或假定这样的先验信息,则不可能进行MAP,而MLE是一种合理的方法。


9
值得补充的是,具有固定优先级的MAP等同于使用ML。
蒂姆

同样值得注意的是,如果您需要数学上的“便利”先验,则可以使用共轭先验(如果您的情况存在)。

8

贝叶斯主义者会同意您的观点,而常客主义者则不会。这是观点,观点和哲学的问题。我认为试图论证一种方法总是比另一种方法更好对统计界有害。只要贝叶斯算法不具有先验的强项,许多问题将具有与贝叶斯算法和频率论者解决方案相似的解决方案。


7
这不仅仅是意见问题。在某些情况下,一个估计量要好于另一个估计量。
汤姆·敏卡

2
@TomMinka我从未说过,在任何情况下,一种方法都不比另一种更好!我只是回应了OP的一般性陈述,例如“ MAP似乎更合理”。这样的陈述等同于声称贝叶斯方法总是更好的说法,这显然是您和我都不同意的陈述。
jsk 2014年

慢跑是对的。贝叶斯方法和常客主义方法在哲学上是不同的。因此,严格的常客主义者会认为贝叶斯方法是不可接受的。
Michael R. Chernick

2

假设您具有准确的先验信息,如果问题的估计值具有零一损失函数,则MAP会更好。如果损失不是零一(并且在许多实际问题中不是),那么MLE可能会实现较低的预期损失。在这些情况下,最好不要将MAP和MLE作为仅有的两个选项,因为它们都是次优的。


如果参数取决于参数,则MAP估计器,而“ 0-1”损失则不然。在引号0-1,因为据我估计所有的估值通常会给出1的概率为1的损失,任何试图再次构造一个近似介绍了参数化问题

1
在我看来,零一损失确实取决于参数设置,因此没有不一致之处。
汤姆·敏卡

0

@bean的简短回答很好地解释了这一点。但是,我想指出的是Gibbs Sampling论文的第1.1节,这是由Resnik和Hardisty发起的。我在本文中做了几行修改,但做了一些细微的修改(此答案重复了OP为了解完整性而知道的一些内容)

MLE

正式地,MLE产生最有可能生成观测数据的(模型参数)选择。

地图

估计的MAP是在给定观察数据的情况下最有可能的选择。与MLE相反,MAP估计采用贝叶斯规则,因此我们的估计可以考虑关于我们期望参数采用先验概率分布形式的先验知识。

抓住

根据各自的“最佳”定义,MLE和MAP估算都为我们提供了最佳估算。但是请注意,使用单个估计值(无论是MLE还是MAP)都会丢弃信息。原则上,参数可以具有任何值(来自域);如果将整个分布考虑在内,而不是仅对参数进行单个估算,那么是否可以获得更好的估算?如果这样做,我们将利用所有可以从观测数据X中拧出的参数信息。

因此,有了这个捕获,我们可能不希望使用它们。另外,正如bean和Tim所提到的,如果必须使用其中之一,请先使用MAP。如果您没有先验条件,则MAP会降低为MLE。共轭先验将有助于分析解决问题,否则请使用Gibbs采样。


0

θ^中号一种P=精氨酸最大值θ日志Pθ|d=精氨酸最大值θ日志Pd|θPθPd=精氨酸最大值θ日志Pd|θPθ=精氨酸最大值θ日志Pd|θ对数似然+日志Pθ正则化器

先验被视为正则化器,如果您知道先验分布,例如线性回归中的Gaussin(),最好添加正则化以获得更好的性能。经验值-λ2θŤθ


-2

如果数据较少,并且您有可用的先验-“ GO FOR MAP”。如果您有很多数据,则MAP将收敛到MLE。因此,在有大量数据的情况下,进行MLE而不是MAP总是更好。


1
这不是那么简单。
Michael R. Chernick

@MichaelChernick我可能是错的。我在读研究生时读的。我要求你纠正我哪里出错了。
Heisenbug

频繁主义者的方法和贝叶斯方法在哲学上是不同的。频率方法基于重复采样来估计模型参数的值。贝叶斯方法将参数视为随机变量。因此,在贝叶斯方法中,您将参数的后验分布与数据的先验分布相结合。MAP查找后验分布的最高峰,而MLE仅通过查看数据的似然函数来估计参数。
Michael R. Chernick

@MichaelChernick-谢谢您的输入。但是,一旦有了足够的数据,MAP的行为就不会像MLE一样。如果我们打破MAP表达式,我们也会得到一个MLE项。如果有大量数据,则MAP中的MLE项将取代先前的项。
Heisenbug

这取决于先验和数据量。在大样本中,它们可以给出相似的结果。区别在于解释。我的评论旨在表明它并不像您创建的那么简单。对于少量数据,如果您具有先验知识,那么这不仅仅是选择MAP的问题。选择不当的先验会导致获得较差的后验分布,从而导致较差的MAP。
Michael R. Chernick
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.