有哪些非贝叶斯方法可用于预测推理?


22

在贝叶斯推断中,通过整合未知参数可以得出未来数据的预测分布。对这些参数的后验分布进行积分可得出后验预测分布,即以已观察到的条件为前提的未来数据的分布。有哪些非贝叶斯预测推理方法考虑了参数估计中的不确定性(即,不仅将最大似然估计或其他任何东西都插入了密度函数中)?

每个人都知道如何在线性回归后计算预测间隔,但是计算背后的原理是什么以及如何将它们应用在其他情况下(例如,从数据中估算出速率参数后为新的指数变量计算确切的预测间隔)?


6
我认为这是一个很好的问题,我想至少提供一个部分的答案,但是我可能会在一段时间内没有时间将其公道对待...所以我现在将对此悬赏。
Glen_b-恢复莫妮卡2015年

3
@ DavidC.Norris我不明白为什么有人需要坚持认为,除了此以外,肯定还有其他参数不确定性的来源(因此,预测性推论需要考虑到这一点以及过程本身的随机可变性)。即使在相当基本的示例中,它本身也不是小事-例如,尝试针对Poisson或负二项式回归得出的预测总和生成预测间隔。人们也不需要贝叶斯就可以假设跨类别的参数有所不同(例如人们使用混合模型)。
Glen_b-恢复莫妮卡2015年

2
@ DavidC.Norris:我之所以问非贝叶斯方法,仅仅是因为在贝叶斯统计的每本导论中都涉及到计算后验预测分布,而用于计算预测区间的通用频次方法并不广为人知。
Scortchi-恢复莫妮卡

2
@EngrStudent,引导程序通过对原始数据进行重新采样来工作,因此与其他仅将采样变化视为不确定性来源的常客方法归为一类。它不会扩展不确定性本身的概念。
David C. Norris

3
@ DavidC.Norris:我样本变化视为不确定性的源头,因为它影响的是对未来观测的预测,而不是对参数的推论,这是我所关心的,而不是非贝叶斯方法考虑其他类型的不确定性。
Scortchi-恢复莫妮卡

Answers:


20

非贝叶斯预测推理(除了SLR案例)是一个相对较新的领域。在“非贝叶斯”的标题下,我们可以将这些方法细分为“经典”常客和那些基于“可能性”的方法。

古典频率预测

αβ

现在,我对大多数统计课程中经典PI的表示和教学方式普遍存在疑问,因为压倒性的趋势是将其解释为贝叶斯后验预测间隔,而绝对不是。最根本的是,他们在谈论不同的概率!贝叶斯(Bayesian)对数量的重复采样性能没有要求(否则,他们将成为常客)。其次,贝叶斯PI实际上在精神上实现了与经典容忍区间相比,而不是经典预测区间。

供参考:公差间隔需要由两个概率指定:置信度和覆盖率。该置信度告诉我们在重复样本中该频率正确的频率。覆盖率告诉我们真实分布下区间的最小 概率测度(与PI相对,PI给出了重复采样下的预期概率测度)。这基本上也是贝叶斯PI试图做到的,但是没有任何重复采样的要求。

因此,Stats 101简单线性回归的基本逻辑是在正态性假设下得出PI的重复采样属性。它的常客+高斯方法通常被认为是“古典的”并且在介绍性课程中教授。这是基于结果计算的简单性(有关详细概述,请参阅Wikipedia)。

非高斯概率分布通常存在问题,因为它们可能缺少可以整齐地反转以获得间隔的关键量。因此,对于这些分布,没有“精确的”方法,通常是因为间隔的属性取决于真实的基础参数。

认识到这种无能为力,似然法又产生了另一类预测(以及推论和估计)。

基于似然性的推理

像许多现代统计概念一样,基于可能性的方法可以追溯到Ronald Fisher。这所学校的基本思想是,除特殊情况外,我们的统计推断在逻辑上要比处理正态分布(其参数估计值正交)的逻辑弱,因为在这种情况下我们可以做出精确的概率陈述。按照这种推论,除了确切的情况外,人们应该真正避免陈述概率,否则,应该对可能性进行陈述,并承认一个人不知道错误的确切概率(从常识意义上来说)。

因此,我们可以看到似然性类似于贝叶斯概率,但没有可积性要求,也没有可能与频繁性概率混淆。它的解释完全是主观的...尽管对于单参数推断通常建议将似然比为0.15。

但是,很少有人看到明确给出“可能性间隔”的论文。为什么?似乎这很大程度上是社会学问题,因为我们都已经习惯了基于概率的置信度声明。取而代之的是,您经常看到的是作者指的是这样的“近似”或“渐近”置信区间。这些间隔主要来自似然方法,在此方法中,我们依赖似然比的渐近卡方分布,与我们依赖样本均值的渐近正态性的方式几乎相同。

通过此“修复”,我们现在可以构造“近似”的95%置信区域,其逻辑一致性几乎与贝叶斯算法相同。

在可能性框架中从CI到PI

上述可能性方法的成功和简便性引发了关于如何将其扩展到预测的想法。这里给出一篇非常不错的调查文章(我不会重述其出色的报道)。它可以追溯到1970年代后期创造了这个词的David Hinkley(请参阅JSTOR)。他将其应用于常年出现的“ 皮尔逊二项式预测问题 ”。我将总结基本逻辑。

ÿÿÿ

摆脱“烦人”参数以获得预测可能性的基本规则如下:

  1. μσ
  2. 如果参数是随机的(例如,其他未观察到的数据或“随机效应”),则将其集成(就像在贝叶斯方法中一样)。

固定参数和随机参数之间的区别对于似然推断是唯一的,但与混合效应模型有联系,在该模型中,贝叶斯框架,频繁主义者和似然框架相互冲突。

希望这可以回答您有关“非贝叶斯”预测的广泛问题(并对此进行推断)。由于超链接可能会发生变化,因此,我还将为“所有可能性:使用可能性进行统计建模和推理”一书做一个插件,该书深入讨论了现代可能性框架,包括相当多的可能性论,贝叶斯论与常客论的认识论问题。推论和预测。


参考文献

  1. 预测间隔:非参数方法。维基百科。访问2015年9月13日。
  2. Bjornstad,JanF。预测性可能性:评论。统计员。科学 5(1990),没有。2,242--254。doi:10.1214 / ss / 1177012175。 http://projecteuclid.org/euclid.ss/1177012175
  3. 大卫·欣克利。预测可能性。统计年鉴卷。》,第7期,第4期(1979年7月),第718-728页发行者:数学统计研究所稳定网址:http//www.jstor.org/stable/2958920
  4. Yudi Pawitan。在所有可能性中:使用可能性进行统计建模和推断。 牛津大学出版社; 1版(2001年8月30日)。ISBN-10:0198507658,ISBN-13:978-0198507659。特别是第5.5-5.9、10和16章。

5

我将针对以下问题专门回答我的问题:“有哪些非贝叶斯预测推理方法考虑了参数估计中的不确定性?” 我将围绕扩大不确定性的含义来组织我的答案。

我们希望统计分析能够为各种索赔提供支持,包括预测。但是我们仍然不确定我们的主张,并且这种不确定性来自许多来源。经常性统计数据的特征是围绕解决抽样中特别引起的不确定性部分进行组织。抽样很可能一直是农田试验中不确定性的主要来源,该试验在历史上为经常性统计的发展提供了很大的刺激。但是,在当前许多最重要的应用程序中,情况并非如此。现在,我们担心各种其他不确定性,例如模型错误指定和各种形式的偏差,其中显然有数百种类型![1]。

桑德·格陵兰(Sander Greenland)有一篇精彩的讨论论文[2],指出了考虑这些不确定性的其他来源有多重要,并规定了多重偏见分析作为实现此目的的手段。他完全用贝叶斯术语来发展理论,这是自然的。如果希望对形式参数的不确定性进行正式,连贯的处理,则自然会导致对参数的(主观)概率分布进行假定;在这一点上,您要么迷失了贝叶斯魔鬼,要么进入了贝叶斯天国(取决于您的宗教信仰)。

对于您的问题@Scortchi,关于是否可以使用“非贝叶斯方法”完成此问题,在[3]中展示了一种非贝叶斯的解决方法。但是,对于任何对贝叶斯主义足够了解的人来写您的问题,可以这么说,那里的处理看起来就像是在“狡猾”地实施贝叶斯计算的尝试。的确,正如作者所承认的那样(请参见第4页),您越接近本书结尾处的高级方法,方法就越像您在问题中描述的集成一样。他们认为,他们最终偏离贝叶斯主义的地方仅仅是在估计它们之前不对它们的参数提出明确的先验。

θααθ

  1. Chavalarias,David和John PA Ioannidis。“科学图谱分析表征了生物医学研究中的235种偏倚。”《临床流行病学杂志》 63,第1期。11(2010年11月):1205-15。doi:10.1016 / j.jclinepi.2009.12.011。

  2. 格陵兰,桑德。“用于观测数据分析的多重偏差建模(有讨论)。”《皇家统计学会杂志》:A系列(社会统计)168,第。2(2005年3月):267-306。doi:10.1111 / j.1467-985X.2004.00349.x。

  3. Lash,Timothy L.,Matthew P.Fox和Aliza K.Fink。将量化偏差分析应用于流行病学数据。生物与健康统计。纽约,纽约:施普林格纽约,2009年。http://link.springer.com/10.1007/978-0-387-87959-8


2
谢谢!这听起来很有趣,但是我认为如果可以添加一个简要概述如何在预测推理中使用多重/定量偏差分析,那将很有用。
Scortchi-恢复莫妮卡

我添加了一个段落,使与预测的联系更加明确。感谢您的澄清要求,@ Scortchi。
David C. Norris
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.