变分推理,KL散度要求真


12

就我(非常适度)对变分推理的理解而言,人们试图通过找到优化以下内容的分布q来近似未知分布pq

KL(p||q)=xp(x)logp(x)q(x)

每当我花时间去理解变分推理时,我都会不断遵循这个公式,并且不禁觉得自己错过了重点。看来我需要知道p才能计算KL(p||q)。但总的来说,我不知道该分布p

每当我尝试阅读一些变化的东西时,正是这一点困扰着我。我想念什么?

编辑

由于@wij的回答,我将在此处添加一些额外的注释,我将尝试更加精确。

在我感兴趣的情况下,考虑以下条件确实是完全合理的;

pθ|d=pd|θpθpdpd|θpθ

在这种情况下,我可以知道应该成比例地显示,因为我将为p D | θ p θ 做出模型选择。那么,我是否正确地说我需要选择一个家庭分布q [让我们说高斯],这样我现在就可以估计K L p θ D | D | | q ))。感觉在这种情况下,我试图拟合接近非标准化p D | θ 的高斯。ppd|θpθqķ大号pθ|d||q。这个对吗?pd|θpθ

如果是这样,感觉就像我假设我的后验是正态分布,而我只是试图针对散度找到该分布的可能值。ķ大号

Answers:


7

我觉得您将视为完全未知的对象。我认为情况并非如此。这可能是您错过的。p

说,我们观察(IID),我们希望推断p X | Ý 其中我们假设p Ý | X p X X [R d是通过指定该模型。根据贝叶斯的规则,ÿ={ÿ一世}一世=1个ñpX|ÿpÿ|XpXX[Rd

pX|ÿ=pXpÿpÿ|X=pXpÿ一世=1个ñpÿ一世|X

第一个观察结果是我们对后验分布有所了解。如上给出。通常,我们只是不知道其归一化p Y 。如果似然性p y | x 非常复杂,那么我们最终会有一些复杂的分布p x | Y pX|ÿpÿp(y|x)p(x|Y)

使得能够进行变分推断的第二件事是,可以采用的形式存在约束。在没有任何限制的情况下,arg min q K L p | | q 将是p,这通常是棘手的。通常,假设q生活在指数族的选定子集中。例如,这可能是完全因式分解高斯分布,即家庭,q Q = { Π ð = 1个 q X |qargminqKL(p||q)pq。事实证明,如果这是您的约束集,则 q的每个分量都由qQ={i=1dqi(xi)each qi is a one-dimensional Gaussian}q

qiexp(Ejiqjlogp(x,Y)),

其中确切的公式并不重要。问题的关键是近似的q可以依靠真正的知识发现p和形式近似的假设q应该采取。pXÿ=pX一世=1个ñpÿ一世|Xqpq

更新资料

以下是回答问题中的更新部分。我只是意识到我一直在考虑。我将始终使用p表示真实数量,而q则使用近似值。在变化推论或变化贝叶斯中,q由下式给出ķ大号q||pX|ÿpqq

q=精氨酸qķ大号q||pX|ÿ

使用上述约束集,解为先前给出的解。现在,如果您正在考虑

q=精氨酸qķ大号pX|ÿ||q

如果将定义为指数族的子集,则此推论称为期望传播(EP)。在这种情况下,q的解是这样的,使得其矩与p x | Y )的矩匹配。qpX|ÿ

无论哪种方式,您都说对了,实际上,您试图通过约束为某种形式的分布来逼近KL方向上的真实后验分布。q


我对此不敢争论。我认为大多数解释都包括我对此的理解。
Peadar Coyle
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.