为什么有人使用贝叶斯方法而不是“非信息性”先验而不是经典方法?


44

如果兴趣只是估计模型的参数(逐点和/或区间估计)而先前的信息不可靠,较弱,(我知道这有点含糊,但我正在尝试建立一个选择先验是困难的)...为什么有人会选择使用“非信息”不正确先验的贝叶斯方法,而不是经典方法?


1
谢谢大家对贝叶斯统计中这个有争议的部分有这么有趣的想法。我一直在阅读和比较您的观点。有一些有趣的论据可以从形式规则,实用性和解释性方面验证其使用。我会在某个时候选择一个答案,但我深信这将是一项非常艰巨的任务。

Answers:


24

即使您使用的是高度非信息性先验,也可能会采用贝叶斯方法的两个原因是:

  • 收敛问题。有些分布(二项式,负二项式和广义伽玛是我最熟悉的分布)具有收敛时间,而这并不是平凡的时间。您可以使用“贝叶斯”框架-以及特定的马尔可夫链蒙特卡洛(MCMC)方法,以计算能力从根本上解决这些收敛问题,并从中获得体面的估计。
  • 解释。贝叶斯估计+ 95%可信区间比常客估计+ 95%置信区间具有更直观的解释,因此有些人可能更愿意简单地报告那些。

3
MCMC并不是真正的贝叶斯方法。如果收敛是问题所在,您可以简单地从目标可能性(而不是后验)中得出估计值。
scottyaz

16

尽管结果将非常相似,但它们的解释不同。

置信区间意味着重复多次实验并能够捕获95%的真实参数的概念。但是您不能说您有95%的机会将其捕获。

另一方面,可信区间(贝叶斯)可让您说区间有95%的“机会”捕获了真实值。更新:一种更贝叶斯的表达方式是,您可以对结果有95%的信心。

P(Data|Hypothesis)P(Hypothesis|Data)


1
我在这里可能会感到困惑,但是“真实价值”如何适合贝叶斯框架?也许您指的是后验模式(或均值,等等)?
2012年

我指的是您要估计的任何参数(填充值)都是样本统计信息,无论是均值,均值差,回归斜率...简而言之,您追求的是什么。
Dominic Comtois,2012年

1
是的,但是“真值”不是表示该参数是一个常量(即其分布是点质量)吗?查看后验分布的整个概念似乎与以这种方式考虑参数不一致。
2012年

9

±2σ

与经典方法相比,提供参数的完整后验分布是贝叶斯方法的优点,传统方法通常仅提供似然函数模式表示的参数的点估计,并利用渐近正态性假设和二次逼近对数似然函数描述不确定性。使用贝叶斯框架,因为参数的全部后验分布是可用的,所以不必使用任何近似来评估不确定性。此外,贝叶斯分析可以为参数或参数的任何函数提供可靠的区间,这比经典统计中的置信区间的概念更容易解释(Congdon,2001)。

因此,例如,您可以计算两个参数之间差异的可信区间。


6

哈罗德·杰弗里斯爵士是贝叶斯方法的坚定支持者。他表明,如果您使用扩散不正确的先验,则所得的贝叶斯推断将与常客推断方法相同(也就是说,贝叶斯可信区域与常客置信区间相同)。大多数贝叶斯主义者主张适当的先验知识。先验使用不当会带来问题,有些人可能会争辩说,没有先验确实是非信息性的。我认为使用这些Jeffreys先验的贝叶斯主义者是作为Jeffreys的追随者来做的。贝叶斯方法的最强有力的倡导者之一丹尼斯·林德利Dennis Lindley)对杰弗里(Jeffreys)表示了极大的敬意,但他主张提供先验知识。


1
为您的答案的前几行+1。我认为,选择Jeffreys优先权而不是“非信息性”优先权的原因不仅仅是作为Jeffreys的追随者。这是因为它确实就像不做任何假设,而所谓的非信息先验却是在对参数化进行假设。
尼尔·G

1
@NeilG我还发现有些人喜欢在使用非信息性先验时使用它们来使“失败者频繁发生”(与“失败保护”同义),以便天真的读者可以理解它们。
Fomite

@EpiGrad:你什么意思?(对不起,我对常客统计的理解非常差。)
Neil G

1
@NeilG从本质上讲,利用Jeffrey的先验知识可以使您获得经常性领域培训的人们所期望看到的东西。在使用已放置的贝叶斯方法进行的工作尚未深入的情况下,这是一个不错的中间立场。
Fomite

@NeilG我也忘记了,正如我的回答一样,如果您使用MCMC 进行频繁性分析,避开趋同问题,那么Jeffrey的先驱也是有帮助的。
Fomite

6

贝叶斯方法具有实际优势。它有助于估算,通常是强制性的。它启用了新颖的模型族,并有助于构建更复杂的(分层,多层)模型。

例如,对于混合模型(包括具有方差参数的随机效应),如果通过对较低级参数(模型系数;这称为REML)边缘化来估计方差参数,则可以得到更好的估计。贝叶斯方法自然可以做到这一点。使用这些模型,即使使用REML,方差参数的最大似然(ML)估计值通常也为零或向下偏差。适当的先验方差参数会有所帮助。

即使使用点估计(MAP,最大后验),先验也会更改模型族。具有大量共线性变量的线性回归是不稳定的。L2正则化是一种补救方法,但它可以解释为具有高斯先验(非信息性)和MAP估计的贝叶斯模型。(L1正则化是不同的先验并给出不同的结果。实际上,这里的先验可能会提供一些信息,但它涉及参数的集合属性,而不是单个参数。)

因此,在一些通用且相对简单的模型中,需要用贝叶斯方法来完成任务!

更加复杂的模型对事情更加有利,例如机器学习中使用的潜在Dirichlet分配(LDA)。一些模型本质上是贝叶斯模型,例如基于Dirichlet过程的模型


6

practicalθ^=θ^(x1,,xn)ΘfXn+1Θ(xn+1θ)fXn+1Θ(xn+1θ^)θ^

fXn+1X1,,Xm(xn+1x1,,xn)=fXn+1Θ(xn+1θ)π(θx1,,xn)dθ.

6
βlog(σ2)

@Cyan的评论有关。

4

有以下几个原因:

  1. ±SE
  2. 大样本属性通常与某些相应的频繁使用方法完全相同。
  3. 由于担心被指责为“不客观”,因此无论我们实际知道多少,通常都不愿就任何先验达成一致。通过使用无信息的先验(“无先验”),人们可以假装不存在这样的问题,这将避免某些评论家的批评。

现在谈到仅使用无信息的先验的缺点,从我认为最重要的方面开始,然后再介绍一些同样非常重要的技术方面:

  1. 坦白说,您所得到的解释与常识性推论几乎相同。您不能仅仅将您的常客最大似然推断重新标记为贝叶斯最大后验推断,并声称这免除了您对多重比较,对数据进行多次查看的任何担忧,并让您根据某些假设的可能性来解释所有陈述。是真的。当然,I类错误等是常识性的概念,但是当科学家们在乎虚假主张时,我们应该这样做,并且我们知道这样做会导致问题。如果您将事情嵌入到层次模型中/做一些经验性的贝叶斯方法,那么很多问题都会消失(或者至少是更少的问题)。但这通常可以归结为通过在模型中包含先验的基础,通过分析过程隐式生成先验(并且另一种方法是显式地制定先验)。这些考虑经常被忽略,在我看来主要是用无花果叶进行贝叶斯p-hacking(即引入多重性,但忽略它),借口是,当您使用贝叶斯方法(忽略所有可能的条件)时这没问题。必须实现)。
  2. 在更“技术性”的方面,没有先验信息的先验是有问题的,因为不能保证您拥有正确的后验。许多人为贝叶斯模型提供了无先验的先验信息,却没有意识到后验是不合适的。结果,产生了基本上没有意义的MCMC样品。

最后一点是关于优先选择模糊的(或稍微弱于信息的)先验以确保适当的后验的论点。诚然,有时也很难从这些样本中进行采样,并且可能很难注意到尚未探究整个后验。但是,从频数论的角度来看,先验性模糊(但适当)的贝叶斯方法在很多领域都具有非常好的小样本属性,并且您当然可以认为,使用这些方法是有理由的,尽管有了更多的数据,几乎没有与无先验先验的方法的任何区别。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.