为什么贝叶斯后验集中在KL散度的最小值上?


9

考虑贝叶斯后验。渐近地,其最大值出现在MLE估计,这恰好使似然性 argmin最大化。θXθ^argminθfθ(X)

所有这些概念(贝叶斯先验,使可能性最大化)听起来都是超级原则,一点也不随意。看不到日志。

然而,MLE最小化了实分布和之间的KL散度,即,它最小化了f~fθ(x)

KL(f~fθ)=+f~(x)[logf~(x)logfθ(x)]dx

哇,这些日志是从哪里来的?为什么特别是KL分歧?

例如,为什么最小化不同的差异与贝叶斯后验的超原则性和积极性概念不相符,而使上述可能性最大化呢?

在这种情况下,KL散度和/或对数似乎有一些特殊之处。当然,我们可以举手示意这就是数学。但是我怀疑可能会有更深刻的直觉或发现的联系。


:你可以在这里找到一些想法 stats.stackexchange.com/questions/188903/...
HALVORSEN的Kjetil b

@kjetilbhalvorsen上一个标题听起来像是重复的;我道歉。我进行了编辑,很清楚为什么这个问题不是重复的。
Yatharth Agarwal

其他问题问:“ KL散度是什么,为什么不对称?” 答案解释了分歧的概念以及有关KL的一些信息。相反,这个问题问“为什么贝叶斯后验集中在KL散度的极小值附近?” 简单地解释分歧不必是对称的,并解释KL并说明KL与MLE相连并不能解决这里的问题:为什么在众多可能的分歧中KL特别与贝叶斯后验有着特殊的联系。这有意义吗?
Yatharth Agarwal

是的,这很有意义,但是仍然存在问题。后验还取决于先验,如果后验有力,则后验可以远离m骨。但是,您的问题不存在先验条件。
kjetil b halvorsen

@kjetilbhalversen我的意思是渐近地使用越来越多的IID样本,并且在(严格)条件下,先验条件并不渐近!
Yatharth Agarwal

Answers:


5

对数在这种计算中的使用来自信息论。在KL散度的特定情况下,该度量可以解释为两种分布的相对信息:

KL(f~fθ)=f~(x)(logf~(x)logfθ(x)) dx=(f~(x)logfθ(x) dxH(f~,fθ))(f~(x)logf~(x) dxH(f~)),

其中是的和是的交叉熵和。熵可以看作是由密度产生的平均速率的度量(认为交叉熵要复杂一些)。最小化固定值的KL散度(如您提到的问题)等同于最小化交叉熵,因此可以为这种优化提供信息理论的解释。H(f~)f~H(f~,fθ)f~fθf~

我不可能在短时间内很好地介绍信息理论和信息度量的属性。但是,我建议您查看一下该领域,因为它与统计信息密切相关。许多涉及密度对数的积分和之和的统计度量是度量理论中使用的标准信息度量的简单组合,在这种情况下,可以根据各种密度等方面的基本信息水平对它们进行解释。


研究信息理论听起来很有前途!感谢您为我指出这一点。
Yatharth Agarwal

显然,您无法在StackExchange帖子中解释整个数学字段,但是您是否对日志有任何特定的引用?
Yatharth Agarwal

我只是认为,为什么在欧拉方程式中有如此深刻的直觉,以至于在这里潜伏着相似的直觉。也许某处的产品会使自然对数出现。我不确定。
Yatharth Agarwal

@Yatharth的对数在这里出现,因为它在香农熵的定义中起着中心作用。至于“为什么”对数适合于信息的度量,而不是另一个功能,请看一下香农的“通信数学理论”中的定理2。而且,Jayne的“信息理论与统计力学”是一个很好的介绍。
Nate Pope
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.