从概率/理论的观点来看,从不合适的后验(密度)采样是没有意义的。原因是函数f在参数空间上没有有限积分,因此不能链接到(有限度量)概率模型(Ω ,σ ,P)(空间,sigma-代数,概率度量)。FF(Ω ,σ,P)
如果您的模型具有不正确的先验导致后验不正确,那么在许多情况下,您仍然可以使用MCMC对其进行采样,例如Metropolis-Hastings,并且“后验样本”可能看起来很合理。乍一看,这看起来很有趣且自相矛盾。但是,这样做的原因是实际上MCMC方法仅限于计算机的数值限制,因此,计算机的所有支持都是有界的(并且是离散的!)。然后,在这些限制(有界和离散)下,后验实际上在大多数情况下是正确的。
Hobert和Casella有很多参考资料,提供了一个示例(性质稍有不同),您可以为后验构造Gibbs采样器,后验样本看起来很合理,但是后验是不正确的!
http://www.jstor.org/stable/2291572
一个类似的例子最近出现在这里。实际上,Hobert和Casella警告读者,不能使用MCMC方法来检测后部的不当之处,并且在实施任何MCMC方法之前必须分别进行检查。综上所述:
- 某些MCMC采样器(例如Metropolis-Hastings)可以(但不应)用于从不正确的后验对象进行采样,因为计算机会限制并分散参数空间。只有当你有巨大的样品,你可能能够观察到一些奇怪的事情。您能否很好地检测到这些问题还取决于采样器中使用的“仪器”分布。后一点需要更广泛的讨论,所以我宁愿将其留在这里。
- (霍伯特和卡塞拉)。您可以为先验不正确的模型构造Gibbs采样器(条件模型),但这并不意味着后验(联合模型)是正确的。
- 对后验样本的正式概率解释需要对后验的适当性。仅针对适当的概率分布/度量建立收敛结果和证明。
PS(脸颊有点舌头):不要总是相信人们在机器学习中所做的事情。正如布赖恩·里普利(Brian Ripley)教授所说:“机器学习是统计信息减去对模型和假设的任何检查”。