贝叶斯统计与生成建模之间的联系


15

有人可以推荐我一个很好的参考资料来解释贝叶斯统计与生成建模技术之间的联系吗?为什么我们通常将生成模型与贝叶斯技术一起使用?

为什么在根本没有完整数据的情况下使用贝叶斯统计量尤其吸引人?

请注意,我来自一个面向机器学习的观点,并且我有兴趣从统计界阅读更多有关它的内容。

任何很好的参考资料,讨论这些要点将不胜感激。谢谢。


我一直在探索自适应和生成转换模式之间的根本区别。贝叶斯似乎适合作为统计模型来研究适应性而非生成性。需要更加自信地得出这个结论。

1
您好Srinidhi,欢迎访问该网站。这是一个问答网站。您能否将您的评论重新整理成一个问题?同样,问题越具体,获得有用答案的可能性就越大。
naught101

Answers:


12

在机器学习中,全概率模型p(x,y)被称为生成模型,因为它可用于生成数据,而条件模型p(y | x)被称为判别模型,因为它没有为p(x ),并且只能在给定x的情况下生成y。两者都可以用贝叶斯方式估计。

贝叶斯估计本质上是关于指定完整概率模型并根据模型和数据执行条件推断。这使得许多贝叶斯模型具有生成感。但是,对于贝叶斯而言,重要的区别不在于如何生成数据,而在于获得感兴趣的未知参数的后验分布所需的条件更多。

判别模型p(y | x)是更大模型的一部分,其中p(y,x)= p(y | x)p(x)。在许多情况下,p(x)与模型p(y | x)中参数的后验分布无关。具体来说,如果p(x)的参数不同于p(y | x),并且先验是独立的,则模型p(x)不包含有关条件模型p(y | x)未知参数的信息,因此,贝叶斯不需要建模。


在更直观的级别上,“生成数据”与“计算后验分布”之间存在明确的联系。鲁宾(Rubin,1984)对这个链接给出了以下极好的描述:

在此处输入图片说明


贝叶斯统计数据在缺少数据的情况下非常有用,主要是因为它提供了消除干扰参数的统一方法-积分。丢失的数据可以认为是(许多)令人讨厌的参数。诸如插入期望值之类的替代建议通常效果不佳,因为我们很少能以很高的准确度估计丢失的数据单元。在这里,集成胜于最大化。

如果x包含丢失的数据,则诸如p(y | x)之类的判别模型也将成为问题,因为我们仅具有估计p(y | x_obs)的数据,但大多数明智的模型是针对完整数据p(y | x)编写的。如果您有一个完全概率模型p(y,x)并且是贝叶斯模型,那么您就可以了,因为您可以像对其他未知量一样对丢失的数据进行积分。


2

@Tristan:希望您不介意我对您的回答进行修改,因为我正在努力使一般要点尽可能透明。

对我来说,主要的统计中的洞察力是将重复的观察概念化,这些观察是由概率生成模型(例如Normal(mu,sigma))生成的。在1800年代初期,接受的概率生成模型通常只是针对带有参数作用的测量误差,例如mu和sigma以及它们的先验性。惯常方法采用固定且未知的参数,因此概率生成模型仅涉及可能的观察。贝叶斯方法(具有适当的先验)具有针对可能的未知参数和可能的观测值的概率生成模型。这些联合概率生成模型全面考虑了所有可能的未知数(例如参数)和已知数(例如观测值),更笼统地说。正如您在鲁宾提供的链接中所述,

高尔顿(Galton)在1800年代后期在两阶段梅花形中对此进行了非常清晰的描绘。参见图5> Stigler,Stephen M.,2010年。达尔文,高尔顿和统计数字

启示。皇家统计学会杂志:A系列 173(3):469-482。。

这是等效的,但也许更透明

后验=先验(可能未知|可能已知=已知)

比后验〜先验(可能的未知数)* p(可能的已知数=已知|可能的未知数)

在前者中,缺失值没有什么新的,因为它只是为生成缺失值的概率模型添加了可能的未知数,并且仅将缺失视为可能的已知值之一(即,第三个观测值缺失)。

近年来,近似贝叶斯计算(ABC)在无法算出p(可能的已知数=可能的未知数)的情况下,认真地采用了这种建设性的两阶段模拟方法。但是,即使可以解决这个问题并且可以从MCMC采样中轻松获得后验(或者即使由于后验是共轭而可以直接获得后验),Rubin关于这种两阶段采样结构的观点也使得它更容易理解,这一点也不容忽视。

例如,我确定它会抓住@Zen在这里的贝叶斯函数:似然函数的奴隶? 因为一个人需要从一个先验的(第一阶段)中提取一个可能的未知c,然后在给定的c(第二阶段)不像p(可能的已知| c)那样随机生成的情况下,绘制一个可能的已知的(数据)。除了一个且只有一个c,这不是一个概率。

总的来说,这不是对统计模型的有效描述。问题是,按照定义,FX一世CC 必须是几乎每个可能值的概率密度C,这显然是错误的。”

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.