请向我解释贝叶斯估计和最大似然估计的区别?
请向我解释贝叶斯估计和最大似然估计的区别?
Answers:
这是一个非常广泛的问题,我在这里的回答只是开始稍微刮一下表面。我将使用贝叶斯规则来解释这些概念。
让我们假设一组的概率分布参数, ,最好的解释了数据集d。我们不妨借助贝叶斯规则来估计参数θ:
解释如下:
最大似然估计
贝叶斯估计
这导致了贝叶斯估计中“共轭先验”的概念。对于给定的似然函数,如果我们可以选择表达自己的先前信念的方式,则必须使用允许我们进行上述积分的形式。COOlSerdash 在这篇文章中很好地解释了共轭先验的概念及其实际实现方式。
我认为您在谈论点估计,就像在参数推论中那样,因此我们可以为数据生成机制假设一个参数概率模型,但是参数的实际值未知。
最大似然估计是指对数据使用概率模型,并在一个或多个参数上优化观测数据的联合似然函数。因此可以看出,相对于参数空间中的任何其他参数,估计的参数与观察到的数据最一致。请注意,由于参数不是随机变量,因此不一定将此类似然函数视为对参数的“条件”,因此,设想比较两个不同参数化的各种结果的可能性要稍微复杂一些。事实证明,这是一种哲学上合理的方法。
贝叶斯估计更一般一些,因为我们不一定要最大化似然度(后验密度)的贝叶斯模拟。但是,类似类型的估计(或后验模式估计)被视为最大化以数据为条件的后验参数的概率。通常,以这种方式获得的贝叶斯估计几乎与ML的行为完全一样。关键区别在于,贝叶斯推理允许使用显式方法来合并先验信息。
同样,“最大可能性史诗史”也颇有启发意义
贝叶斯估计是贝叶斯推断,而MLE是一种频繁性推断方法。
贝叶斯推理中MLE的替代方法称为最大后验估计(简称MAP),实际上,MLE是MAP的特例,其先验是统一的,正如我们在上文和Wikipedia中所述:
从贝叶斯推断的角度来看,MLE是最大后验估计(MAP)的特殊情况,它假设参数的先验分布均匀。
有关详细信息,请参阅这篇很棒的文章:MLE与MAP:最大似然和最大后验估计之间的联系。
另外一个区别是,最大可能性是过度拟合的倾向,但是如果采用贝叶斯方法,则可以避免过度拟合的问题。