考虑贝叶斯后验。渐近地,其最大值出现在MLE估计,这恰好使似然性 argmin最大化。
所有这些概念(贝叶斯先验,使可能性最大化)听起来都是超级原则,一点也不随意。看不到日志。
然而,MLE最小化了实分布和之间的KL散度,即,它最小化了
哇,这些日志是从哪里来的?为什么特别是KL分歧?
例如,为什么最小化不同的差异与贝叶斯后验的超原则性和积极性概念不相符,而使上述可能性最大化呢?
在这种情况下,KL散度和/或对数似乎有一些特殊之处。当然,我们可以举手示意这就是数学。但是我怀疑可能会有更深刻的直觉或发现的联系。
:你可以在这里找到一些想法 stats.stackexchange.com/questions/188903/...
—
HALVORSEN的Kjetil b
@kjetilbhalvorsen上一个标题听起来像是重复的;我道歉。我进行了编辑,很清楚为什么这个问题不是重复的。
—
Yatharth Agarwal
其他问题问:“ KL散度是什么,为什么不对称?” 答案解释了分歧的概念以及有关KL的一些信息。相反,这个问题问“为什么贝叶斯后验集中在KL散度的极小值附近?” 简单地解释分歧不必是对称的,并解释KL并说明KL与MLE相连并不能解决这里的问题:为什么在众多可能的分歧中KL特别与贝叶斯后验有着特殊的联系。这有意义吗?
—
Yatharth Agarwal
是的,这很有意义,但是仍然存在问题。后验还取决于先验,如果后验有力,则后验可以远离m骨。但是,您的问题不存在先验条件。
—
kjetil b halvorsen
@kjetilbhalversen我的意思是渐近地使用越来越多的IID样本,并且在(严格)条件下,先验条件并不渐近!
—
Yatharth Agarwal