当我们通常使用无信息或主观先验时,贝叶斯框架在解释方面如何更好?


18

人们经常认为贝叶斯框架在解释(相对于频繁主义者)方面具有很大的优势,因为贝叶斯框架在给定数据而不是频繁主义者框架中的p x | θ )的情况下计算参数的概率。到目前为止,一切都很好。pθ|XpX|θ

但是,整个方程式基于:

pθ|X=pX|θpθpX

在我看来有点可疑,原因有两个:

  1. 在许多论文中,通常使用无信息的先验(均匀分布),然后仅使用,因此贝叶斯算法与常客得到的结果相同-那么贝叶斯框架如何更好地解释,当贝叶斯后验概率和常客概率是相同的分布时?它只是产生相同的结果。pθ|X=pX|θ

  2. 当使用信息先验时,您会得到不同的结果,但是贝叶斯方法受主观先验的影响,因此整个也具有主观色彩。pθ|X

换句话说,的整个论点在解释上要比p x | θ 更好,这是基于p θ 是“实数” 的假设,通常不是这样,只是我们以某种方式选择使MCMC运行为起点,这是一个假设,但这并不是对现实的描述(我认为无法定义)。pθ|XpX|θpθ

那么我们怎么能说贝叶斯的解释更好呢?


4
(1)外观怀疑,因为它的结论是不正确的:与无信息先验贝叶斯结果并不一定等同于频率论的结论。实际上,在许多情况下,甚至关于“无信息的先验”是什么也似乎没有共识!(2)也是值得商because的,因为它隐含地假设,在频繁分析中所做的每个假设都不是主观的,但事实并非如此。最后,“更好的诠释”到底是什么意思?您的问题不明确,含糊不清。
whuber

1
除了我要说的胡布尔的评论外,没有普遍的理由说明为什么贝叶斯比常客更好。有时贝叶斯给出有意义的结果,而有时频频的方法更好。但是,在应用领域中,没有理由应该得出非常不同的结果。从哲学的角度来看,贝叶斯绝对是强者,但众所周知,理论与实践是不同的,有时是截然不同的。另外,我有点担心您的第一段。在我看来,您是一个坚定的贝叶斯主义者(没有错。)。
suncoolsu 2011年

标题不应该uninformative or *objective* priors吗?该subjective先验正是信息前科。
javadba

Answers:


15

与已发布的优秀响应相比,它给出的响应要窄得多,并着眼于解释的优势-例如,“ 95%可信区间”的贝叶斯解释是,真实参数值位于参数范围之内。间隔等于95%。即使在数值上两者相同,例如,“ 95%置信区间”的两种常见的频繁主义者解释之一是,从长远来看,如果我们要多次执行该过程,那么间隔将覆盖实际值,将收敛到95%。前者是直观的,后者不是。尝试一段时间向经理解释,您不能说“我们的太阳能电池板在25年内降解不到20%的概率是95%”,而必须说“

另一种常见的解释是“在生成数据之前,我使用确定的过程计算的间隔有5%的机会完全落在真实参数值以下。但是,既然我们已经收集了数据,我们无法发表任何此类声明,因为我们不是主观主义者,并且概率为0或1,具体取决于它是否完全低于真实参数值。” 这将对审核员和计算保修准备金有所帮助。(我实际上发现此定义是合理的,尽管通常没有用;它也很难直观地理解,尤其是如果您不是统计学家的话。)

两种频率论者的解释都不是直觉的。贝叶斯版本是。因此,贝叶斯方法拥有“解释的巨大优势”。


我反对反常主义者论点的问题在于,它试图将过程描述为答案的尝试过多。您自己可以在解释方面尝试相同的实验,但是要从结果中得出什么结论。根据常客和贝叶斯给出的结果,您将如何采取不同的行动?实际上,当您了解两者时,您仍会表现出相同的行为。无需在过程级别上解释“最好是根据数据给出的置信度如此行事”。
PascalVKooten

同样,根据定义,您将不得不在贝叶斯案例中做更多的解释,因为您不仅具有“数据告诉我们的内容”,而且还具有先验包含的信息!贝叶斯主义者倾向于做出长期的频繁主义者的解释,但是他们没有解释他们选择了哪个先验,为什么选择了先验,特别是为什么选择那个先验。
PascalVKooten

好吧,我会部分不同意你的最后一点。例如,当我在以前的工作中对非常昂贵的设备进行可靠性分析时,我们将以前的可靠性分析结果作为新产品的先验结果,将“等效样本量”权重降低为考虑到现实世界的不平稳性和设计等方面的微小变化。而且,实际上,贝叶斯统计信息就是关于用数据更新您的先验;传统的统计信息不会“更新”,因此,如果您的先验数据是平坦的,那么您只会得到相同的结果,但有一些例外。
jbowman

我只需要合并数据集并执行其他分析即可...无需先验。先验数据比实际先验数据更好:您将获得一个基于数据的“真实”后验。
PascalVKooten

好吧,在我们的情况下,由于正在进行的较小的设计更改以及我们对mfg的了解,您可能不希望新的先验恰好是后验。流程也在不断发展,使得我们之前的信息无法100%地用于将来的数据。可能还会有运行时注意事项。但是在我看来,您的观点通常是不错的。
jbowman

13

pθ|XpX|θpX|θpθ|X

请注意,提供信息的先验并不一定是主观的,例如,我不会断言某个物理系统的先验知识应独立于测量单位(因为它们本质上是任意的)是主观知识,从而导致了转换组的想法和“信息最少的”先验信息。

忽略主观知识的另一面是,由于您忽略专家知识,您的系统可能不是最优的,因此主观性不一定是一件坏事。例如,在通常被用作激励示例的通常的“推断硬币的偏差”问题中,随着数据的到来,您将以统一的先验学习相对缓慢。但是所有的偏差量是否同样可能是合理的假设?不,要制造一个稍有偏差的硬币或完全偏差的硬币(两个头或两个tal)很容易,因此,如果我们通过主观先验将这种假设纳入分析,我们将需要较少的数据来确定偏见实际上是。

频繁分析也常常包含主观因素(例如,如果p值小于0.05,则拒绝否定假设的决定,没有逻辑上的强制性,这仅仅是一种已被证明有用的传统)。贝叶斯方法的优点是在计算中使主观性明确,而不是隐含主观性。

归根结底,这是“课程马”的问题,您应该在工具箱中同时拥有两组工具,并准备使用最好的工具来完成当前的任务。


6

贝叶斯框架与惯常论者相比具有很大的优势,因为就知道要做出的正确分布假设而言,它不依赖于拥有“水晶球”。贝叶斯方法取决于使用您拥有的信息,并知道如何将该信息编码为概率分布。

使用贝叶斯方法基本上就是在充分利用概率论。贝叶斯定理不过是概率论经典乘积规则的重述:

pθX|一世=pθ|一世pX|θ一世=pX|一世pθ|X一世

pX|一世0一世

现在,如果您认为贝叶斯定理是可疑的,那么从逻辑上讲,您还必须认为乘积规则也是可疑的。您可以在此处找到一个演绎论点,它推导乘积和求和规则,类似于Cox定理。可以在此处找到所需假设的更明确的列表。

据我所知,频繁推断并不基于逻辑框架内的一组基础。因为它使用了概率的Kolmogorov公理,所以概率论与统计推断之间似乎没有任何联系。没有用于频繁推断的公理,导致需要遵循的程序。有一些原理和方法(最大似然,置信区间,p值等),虽然效果很好,但它们往往是孤立的并且专门针对特定问题。我认为,至少在严格的逻辑框架方面,频频方法最好在其基础上保持模糊。

1个θ

2

当与先验相比可能性较大时,使用统一的先验通常是一种方便的近似方法。有时不值得花费精力来进行适当的设置。同样,不要将贝叶斯统计与MCMC混淆。MCMC只是一种积分算法,与高斯方波相同,并且与Laplace近似相似。它比quadratre有用,因为您可以重复使用算法的输出来完成所有积分(后均值和方差是积分),并且比Laplace更通用,因为您不需要大样本或后部的峰圆圆(拉普拉斯速度更快)。


3

μ=0)放在回归系数上,对所有事物都是相等的知识进行编码,我们更喜欢系数较小的解决方案。这是通过找到确实使目标函数最大化但在我们的问题的特定情况下没有意义的解决方案来避免过度拟合数据集。从某种意义上讲,它们提供了一种为统计模型提供有关特定域的“线索”的方法。

但是,(我认为)这不是贝叶斯方法论最重要的方面。贝叶斯方法具有生成性,因为它们为数据如何存在提供了完整的“故事”。因此,他们不仅是模式发现者,而且还能够考虑到当前形势的全部现实。例如,考虑LDA(潜在的Dirichlet分配),它为文本文档的生成提供了完整的生成故事,其内容如下:

  1. 根据特定主题同时出现的可能性,选择一些主题组合;和
  2. 从词汇表中选择一组单词,这些单词根据所选主题而定。

因此,模型是基于对领域中的对象(此处为文本文档)及其创建方式的非常具体的了解而拟合的;因此,我们获取的信息直接针对我们的问题领域(针对给定主题的单词的可能性,一起提及主题的可能性,包含主题的文档的可能性以及在何种程度上等等)。需要贝叶斯定理来完成这一事实几乎是次要的,因此开了一个小玩笑,“贝叶斯不会是贝叶斯,基督不会是基督徒”。

简而言之,贝叶斯模型都是关于使用概率分布对领域对象进行严格建模的。因此,我们能够使用简单的判别技术对原本无法获得的知识进行编码。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.