谁能用最简单的术语解释共轭先验吗?


Answers:


23

参数的先验几乎总是具有某些特定的功能形式(通常以密度表示)。假设我们将自己限制在一个特定的分布族中,在这种情况下,选择先验会简化为选择该族的参数。

例如,考虑一个正态模型。为了简单起见,让我们也ÿ一世艾德ñμσ2已知。模型的这一部分-数据模型-确定似然函数。σ2

为了完善我们的贝叶斯模型,这里我们需要先验 μ

如上所述,通常我们可能会为先前的 ,然后我们只需要选择该分布的参数即可(例如,通常先验信息可能非常含糊-就像我们希望集中概率的大致位置-而不是非常具体的功能形式,并且我们可能有足够的自由通过选择参数来建模所需的模型(例如,匹配先前的均值和方差)。μ

如果事实证明后验为μ与前来自同一家族,则称 “共轭”。

(使之成为共轭的是它与可能性结合的方式)

因此,在这种情况下,让我们来高斯先验对于(说μ Ñ θ τ 2)。如果这样做,我们可以看到μ的后验μμN(θ,τ2)μ也是高斯的。因此,对于上述模型,高斯先验是共轭先验。

真的就是所有这些-如果后验与前验来自同一个家庭,那么它就是共轭先验。

在简单情况下,您可以通过检查可能性来确定共轭。例如,考虑二项式可能性;除去常数,它看起来像的beta密度;而且由于路权力p1 - p 相结合,将乘以一个测试之前,也给权力的产物p1 - p ......所以我们可以从可能性立即看到在二项式似然中,β将是p的共轭先验。pp1个-pp1个-pp

在高斯情况下,最容易看到这种情况的发生是通过考虑对数密度和对数似然;对数似然将是的二次方,两个二次方之和是二次方,因此二次对数先验+二次对数似然就得出了二次后验(最高阶项的每个系数当然都是负的)。μ


9

如果模型属于一个指数族,即,如果所述分布的密度的形式为

f(x|θ)=h(x)exp{T(θ)S(x)ψ(θ)}xXθΘ
相对于一个给定的主导量度(勒贝格,计数,和TC。),其中ts表示在标量积Rd
T:XRdS:ΘRd
是可测量的功能,在共轭先验θ是由形式的密度定义
π(θ|ξ,λ)=C(ξ,λ)exp{T(θ)ξλψ(θ)}
[相对于一个任意挑选的主导度量 dνΘ ]与
C(ξ,λ)1=Θexp{T(θ)ξλψ(θ)}dν<
λΛR+ξΞλT(X)

主导措施的选择对于先验家庭是决定性的。例如如果一个面临着一个正常均值的可能性μGlen_b的回答,选择勒贝格测度dμ为主导措施导致正常的先验是共轭。相反,如果一个人选择(1+μ2)2dμ为主导措施,共轭先验是家庭分布的其密度内

exp{α(μμ0)2}α>0,  μ0R
相对于该主导量度,并且因此不再正常先验。该困难与选择可能性的特定参数化并为此参数选择勒贝格测度的困难基本相同。面对似然函数时,在参数空间上没有固有(或固有或参考)的主导度量。

在此指数族设置之外,没有任何具有固定支持的非平凡分布族允许共轭先验。这是Darmois-Pitman-Koopman引理的结果


11
“用最简单的术语?” 也许没有先验措施知识的解释对OP会更有用。

3
las,我担心共轭先验在没有度量背景的情况下是毫无意义的(即使这是宇宙中最好的秘密)。
西安

6
在我看来,“最简单的术语”是易于解释的,使用高级数学(例如量度理论)的解释在某种意义上可能仍然是“简单的”,甚至比避免这种机器的解释“更简单”。无论如何,这样的解释对于具有必要背景知识的人来说可能是非常有启发性的,并且在各种解释主题的方式列表中包括这样的答案是没有害处的。我们不仅为OP写信,而且为所有未来读者写答案。
littleO

1
@LBogaardt如果您可以链接到一个或多个问题,而您认为此答案既是主题又是更合适的水平,则您的批评将更加重要。请记住,“简单”不是一个定义明确的术语,并且具有不同的主观解释。无论如何,将其与“数学上不成熟的”混为一谈是无效的,如您的评论所建议。
ub

2
西安的回答对我来说不是没有用的。我学到了一些东西。
littleO

2

我喜欢使用发行版的“内核”概念。在这里,您只剩下依赖于参数的零件。一些简单的例子。

正常内核

p(μ|a,b)=K1×exp(aμ2+bμ)
其中K是“归一化常数” K=exp(aμ2+bμ)dμ=πaexp(b24a) The connection with standard mean/variance parameters is E(μ|a,b)=b2a and Var(μ|a,b)=12a

p(θ|a,b)=K1×θa(1θ)b
K=θa(1θ)bdθ=Beta(a+1,b+1)

When we look at the likelihood function, we can do the same thing, and express it in "kernel form". For example with iid data

p(D|μ)=i=1np(xi|μ)=Q×f(μ)

For some constant Q and some function f(μ). If we can recognise this function as a kernel, then we can create a conjugate prior for that likelihood. If we take the normal likelihood with unit variance, the above looks like

p(D|μ)=i=1np(xi|μ)=i=1n12πexp((xiμ)22)=[i=1n12π]×i=1nexp((xiμ)22)=(2π)n2×exp(i=1n(xiμ)22)=(2π)n2×exp(i=1nxi22xiμ+μ22)=(2π)n2×exp(i=1nxi22)×exp(μi=1nxiμ2n2)=Q×exp(aμ2+bμ)

where a=n2 and b=i=1nxi and Q=(2π)n2×exp(i=1nxi22)

This likelihood function has the same kernel as the normal distribution for μ, so a conjugate prior for this likelihood is also the normal distribution.

p(μ|a0,b0)=K01exp(a0μ2+b0μ)
The posterior is then
p(μ|D,a0,b0)K01exp(a0μ2+b0μ)×Q×exp(aμ2+bμ)=K01×Q×exp([a+a0]μ2+[b+b0]μ)exp([a+a0]μ2+[b+b0]μ)
Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.

In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.


1
(+1) I appreciate the pseudo-data intuition!
Xi'an

1

For a given distribution family Dlik of the likelihood (e.g. Bernoulli),

if the prior is of the same distribution family Dpri as the posterior (e.g. Beta),

then Dpri and Dlik are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.

Note: p(θ|x)posteriorp(x|θ)likelihoodp(θ)prior


How does this explain what a conjugate prior is?
LBogaardt

ok I'll edit that.
Thomas G.
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.