1
为什么贝叶斯后验集中在KL散度的最小值上?
考虑贝叶斯后验。渐近地,其最大值出现在MLE估计,这恰好使似然性 argmin最大化。θ∣Xθ∣X\theta\mid Xθ^θ^\hat \thetaargminθfθ(X)argminθfθ(X)\operatorname{argmin}_\theta\, f_\theta(X) 所有这些概念(贝叶斯先验,使可能性最大化)听起来都是超级原则,一点也不随意。看不到日志。 然而,MLE最小化了实分布和之间的KL散度,即,它最小化了f~f~\tilde ffθ(x)fθ(x)f_\theta(x) KL(f~∥fθ)=∫+∞−∞f~(x)[logf~(x)−logfθ(x)]dxKL(f~∥fθ)=∫−∞+∞f~(x)[logf~(x)−logfθ(x)]dx KL(\tilde f \parallel f_\theta) = \int_{-\infty}^{+\infty} \tilde f(x) \left[ \log \tilde f(x) - \log f_\theta(x) \right] \, dx 哇,这些日志是从哪里来的?为什么特别是KL分歧? 例如,为什么最小化不同的差异与贝叶斯后验的超原则性和积极性概念不相符,而使上述可能性最大化呢? 在这种情况下,KL散度和/或对数似乎有一些特殊之处。当然,我们可以举手示意这就是数学。但是我怀疑可能会有更深刻的直觉或发现的联系。