贝叶斯估计和最大似然估计有什么区别?


50

请向我解释贝叶斯估计和最大似然估计的区别?


7
取决于贝叶斯估计的种类。地图?后意味着什么?将损失函数的贝叶斯风险最小化的结果?以上每个?还有吗
2013年

2
我已经在这里回答了这个问题,或类似的问题。stats.stackexchange.com/questions/73439/…您对这两个问题有什么了解?更多详细信息将帮助我们给出更好的答案。
恢复莫妮卡

1
在STAN参考手册中:“如果先验一致,则后验模式对应于参数的最大似然估计(MLE)。如果先验不一致,则后验模式有时称为最大后验(MAP)估计。 ”
Neerav 2015年

@Neerav这就是需要的答案。thx
javadba

对于贝叶斯最大后验估计的具体情况,这里给出一个可能有用的答案。
pglpm

Answers:


68

这是一个非常广泛的问题,我在这里的回答只是开始稍微刮一下表面。我将使用贝叶斯规则来解释这些概念。

让我们假设一组的概率分布参数, ,最好的解释了数据集d。我们不妨借助贝叶斯规则来估计参数θθDθ

p(θ|D)=p(D|θ)p(θ)p(D)

posterior=likelihoodpriorevidence

解释如下:

最大似然估计

θp(D|θ)θ^θ^

p(θ)p(D)p(θ)θ

贝叶斯估计

p(θ|D)θ

θp(θ|D)θθθ

evidence

p(D)=θp(D|θ)p(θ)dθ

这导致了贝叶斯估计中“共轭先验”的概念。对于给定的似然函数,如果我们可以选择表达自己的先前信念的方式,则必须使用允许我们进行上述积分的形式。COOlSerdash 在这篇文章中很好地解释了共轭先验的概念及其实际实现方式。


1
您会对此进行详细说明吗?:“贝叶斯规则中的分母,即证据。”
丹尼尔(Daniel)

1
我扩大了答案。
朱巴卜

在此,在方程式中,@ Berkan为P(D | theta)。但是,似然函数定义为P(θ| D),即给定数据的参数函数。我对此一直感到困惑。可能性一词在这里是指不同的事物?您能详细说明一下吗?非常感谢!
zesla

1
@zesla如果我的理解是正确的,则P(theta | D)不是可能性-它是后验的。也就是说,theta的分布取决于您拥有样本的数据源。可能性就像您所说的那样:P(D | theta)-由theta参数化的数据分布,或者更直观地说,是“随便看什么的可能性”。那有意义吗?其他所有人:请纠正我错了的地方。
grisaitis '18年

@zesla,由grisaitis给出的解释是正确的。
朱巴卜

13

我认为您在谈论点估计,就像在参数推论中那样,因此我们可以为数据生成机制假设一个参数概率模型,但是参数的实际值未知。

最大似然估计是指对数据使用概率模型,并在一个或多个参数上优化观测数据的联合似然函数。因此可以看出,相对于参数空间中的任何其他参数,估计的参数与观察到的数据最一致。请注意,由于参数不是随机变量,因此不一定将此类似然函数视为对参数的“条件”,因此,设想比较两个不同参数化的各种结果的可能性要稍微复杂一些。事实证明,这是一种哲学上合理的方法。

贝叶斯估计更一般一些,因为我们不一定要最大化似然度(后验密度)的贝叶斯模拟。但是,类似类型的估计(或后验模式估计)被视为最大化以数据为条件的后验参数的概率。通常,以这种方式获得的贝叶斯估计几乎与ML的行为完全一样。关键区别在于,贝叶斯推理允许使用显式方法来合并先验信息。

同样,“最大可能性史诗史”也颇有启发意义

http://arxiv.org/pdf/0804.2996.pdf


您会对此进行详细说明吗?“但是,类似类型的估计(或后验模式估计)被视为最大化以数据为条件的后验参数的概率。”
丹尼尔(Daniel)

后模式有点用词不当,因为对于连续DF,该值定义明确。后验密度与常客情况下的可能性有关,不同之处在于后验密度使您可以从后验密度模拟参数。有趣的是,最直观地认为“后均值”是参数的最佳点估计。通常采用这种方法,并且对于对称单峰密度,这会产生与ML一致的有效可信区间。后模式只是后密度最高点的参数值。
2013年

关于“这将产生与ML一致的有效可信区间。”:确实取决于模型,对吗?他们可能一致还是不一致……
Daniel

1
基本参数假设的问题促使人们对全参数与半参数或非参数推论进行讨论。这不是ML vs贝叶斯问题,而且您不是第一个犯此错误的人。ML是一种完全参数化的方法,它使您可以估算SP或NP无法做到的某些事情(并且通常可以更有效地估算它们)。在ML中正确指定概率模型与选择正确的先验以及所暗示的所有鲁棒性(和灵敏度问题)完全相同。
AdamO 2013年

顺便说一句,您的评论在我心中点燃了这个问题。对此有何评论?stats.stackexchange.com/questions/74164/…–
丹尼尔(Daniel)

2

贝叶斯估计是贝叶斯推断,而MLE是一种频繁性推断方法。

f(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ)likelihood=posteriorevidencepriorp(θ)=1/6

贝叶斯推理中MLE的替代方法称为最大后验估计(简称MAP),实际上,MLE是MAP的特例,其先验是统一的,正如我们在上文和Wikipedia中所述

从贝叶斯推断的角度来看,MLE是最大后验估计(MAP)的特殊情况,它假设参数的先验分布均匀。

有关详细信息,请参阅这篇很棒的文章:MLE与MAP:最大似然和最大后验估计之间的联系

另外一个区别是,最大可能性是过度拟合的倾向,但是如果采用贝叶斯方法,则可以避免过度拟合的问题。


1
关于贝叶斯的一件很酷的事情是,您根本没有义务计算任何点估计。整个后验密度可以是您的“估计”。
Frank Harrell

@FrankHarrell亲爱的Harrell教授,如果我在某个地方犯了一些严重的错误,您能帮我编辑答案吗?非常感谢!
Lerner Zhang

1
我并不是要暗示您犯了一个错误。
Frank Harrell '18

@lerner:我想提醒您不要将最大似然估计确定为后验最大估计的特殊情况(当先验为常数时):请参阅此答案中的原因
pglpm
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.