贝叶斯后验是否需要适当的分布?


21

我知道先验不一定合适,似然函数也不会积分为1。但是后验是否需要适当分配?如果是/不是,这意味着什么?

Answers:


15

(阅读先前的答案有点令人惊讶,前者的答案集中在后验正确时潜在的不当行为,因为据我所知,问题是后验是否必须正确(即,可整合为一个),以成为适当的后验(即贝叶斯推断可接受)。)

在贝叶斯统计,后验分布具有是一个概率分布,从中可以推导出像后平均的时刻Eπ[h(θ)|x]和概率陈述,例如可信区域的覆盖范围P(π(θ|x)>κ|x)。如果将后验 π θ | x 归一化为概率密度,并且不能简单地进行贝叶斯推断。在这种情况下,后部根本不存在。

f(x|θ)π(θ)dθ=+,(1)
π(θ|x)

实际上,(1)必须对样本空间中的所有都适用,而不仅要对所观察的x都适用,否则,选择先验将取决于数据。这意味着不能使用像Haldane的先验π p { 1 / p 1 - p }那样的先验,因为二项式或负二项式变量X的概率为p,因为未为x =定义后验0x xπ(p){1/p(1p)}pXx=0

我知道有一个例外,可以考虑“不适当的后人”:David van Dyk和孟小立“数据增强的艺术”中可以找到它。不适当的措施是在所谓的工作参数 ,使得观测由边缘的增强分布的产生 ˚F X | θ = Ť X 八月= X ˚F X 八月| θ α α 和van Dyk和Meng在此工作参数 α上放置了不适当的先验 p α ,以加快MCMC对 π θ | x 的模拟(仍然明确定义为概率密度)。

f(x|θ)=T(xaug)=xf(xaug|θ,α)dxaug
p(α)απ(θ|x)

从另一个角度来看,与eretmochelys的回答有些相关,即贝叶斯决策理论的观点,如果(1)发生的设置能够导致最佳决策,那么仍然可以接受。即,如果是一个损失函数评估使用决定的影响δ,一个贝叶斯最优决策现有下π由下式给出 δ X = ARG 分钟δ∫大号δ θ ˚FL(δ,θ)0δπ和所有重要的是,这个积分是不是到处(以 δ)无限。是否(1)成立是继发的推导 δ X ,即使像受理属性时(1)成立仅保证。

δ(x)=argminδL(δ,θ)f(x|θ)π(θ)dθ
δδ(x)

19

vxvxp(x|v)v0.5vv1.25ev。由于连续变量的古怪性质,因此出现了此问题。


很好的例子,汤姆!
2014年

+1,虽然您可以扩展OP的最后一句话的答案吗?这个怪异的后验是否有意义(您可以对后验做通常的事情),还是更类似于从某些计算中获得NaN或Inf?这是否表明您的模型有问题?
韦恩

5
该模型没有错。从某种意义上来说,后验是有意义的,如果您收到另一个观察结果,则可以将其乘以并可能返回到适当的后验。因此,它不像NaN,所有后续操作都基于NaN。
汤姆·明卡2014年

8
x=0

x0.25,1,x2

11

Bogus Data={x:f(xθ)π(θ)dθ=},
Pr(XBogus Data)=Bogus Dataf(xθ)π(θ)dθdx=Bogus Datadx.
Bogus Data01Bogus Data0Pr(XBogus Data)=0

换句话说:使后验不当的那些样本值的先验预测概率等于零。

这个故事的寓意:提防空集,它们可能会咬人,无论多么不可能。

PS正如罗伯特教授在评论中指出的那样,如果先验不当,这种推理就会失败。


4
您曾经写道:“如果我们可以从一个适当的先验开始,而得到一个不合适的后验,那么我将放弃推论。”
汤姆·敏卡2014年

2
脸颊有点舌头,有一个隐含的量词:如果我们可以从一个适当的先验开始,然后得到一个不合适的后验,那么对于每个可能的样本值,我都会退出推断。;-)

顺便说一下,汤姆!
2014年

4
Pr(XBogus Data)(θ,x)

1
没错 答案中的推理仅适用于适当的先验条件。好点子。我会加一个便条。
2014年

3

任何“分布”都必须求和(或积分)为1。我可以想到一些示例,其中的一个可能适用于非标准化分布,但是我曾经不满意将任何边缘化为1的东西称为“分布”。

考虑到您提到贝叶斯后验,我敢打赌,您的问题可能来自的的最优估计的分类问题xd

x^=argmaxxPX|D(x|d)=argmaxxPD|X(d|x)PX(x)PD(d)=argmaxxPD|X(d|x)PX(x)

where the last equality comes from the fact that PD doesn't depend on x. We can then choose our x^ exclusively based on the value PD|X(d|x)PX(x) which is proportional to our Bayesian posterior, but do not confuse it for a probability!


@Zen would you mind being more explicit about what you think is wrong (or fundamentally incomplete) about this answer?
whuber

1
One way to interpret the OP question "does the posterior need to be a proper distribution?" is to ask if it is mathematically possible to start with a proper prior and end with an improper posterior. Minka's answer gives an explicit example in which it happens. I tried to complement it with my answer and point out that this can only happen inside a set of zero prior predictive probability.
Zen

1
@Zen It seems to me that a closely related interpretation is "if the posterior is not proper, what information can I get from it?" This accepted answer looks like it provides useful and correct advice related to that in a special circumstance (which is clearly described). The acceptance looks to me like a signal that eretmochelys struck home with a shrewd guess about the circumstances.
ub

-2

Improper posterior distribution only arises when you're having an improper prior distribution. The implication of this is that the asymptotic results do not hold. As an example, consider a binomial data consisting of n success and 0 failures, if using Beta(0,0) as the prior distribution, then the posterior will be improper. In this situation, the best is to think of a proper prior distribution to substitute your improper prior.


3
This answer is incorrect. See my answer.
Tom Minka
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.