贝叶斯方法何时比频率论者更可取?


18

我真的很想学习贝叶斯技术,所以我一直在努力教自己一些知识。但是,我很难知道何时使用贝叶斯技术比频频方法具有优势。例如:我在文献中已经看到一些关于如何使用信息先验,而另一些如何使用非信息先验的信息。但是,如果您使用的是非信息性先验(这似乎真的很普遍?),并且您发现后验分布是一个beta分布...难道您不只是在开始时就适合一个beta分布并称为好吗 我看不出如何构造一个不会告诉您任何事情的先验发行版……可以,真的告诉您什么吗?

事实证明,我在R中使用的某些方法混合使用了贝叶斯方法和贝叶斯方法(作者承认这有些矛盾),我什至无法辨别贝叶斯的组成部分。除了分布拟合,我什至无法弄清楚如何使用贝叶斯方法。有“贝叶斯回归”吗?那会是什么样?我能想像的是,一遍又一遍地猜测基础分布,而频率论者则在思考数据,观察数据,观察泊松分布并运行GLM。(这不是批评……我真的不明白!)

所以..也许一些基本的例子会有所帮助?而且,如果您知道一些像我这样的真正初学者的实用参考资料,那也将非常有帮助!



嗯,看起来像什么?欢迎关闭,因为这接近回答我的问题。我仍然想知道我所描述的更简单的情况(因为我从未听说过该线程中列出的技术),但是我想我的答案是人们不会使用贝叶斯技术进行回归/等等,因为存在既定的和容易的频频技术?
HFBrowning

2
人们确实使用贝叶斯技术进行回归。但是由于频繁使用的方​​法非常方便,并且许多人对使用哪种方法都非常务实,因此,如果不需要更复杂的方法,那么乐于使用这两种方法的人通常会使用普通回归。但是,一旦您需要处理更多的复杂性,或者正式合并先前的信息,或者由于许多其他原因,那么贝叶斯方法中的少量额外工作便开始看起来不错。
Glen_b-恢复莫妮卡2014年

这是有道理的,谢谢。阅读其他一些线程也为我阐明了用法。
HFBrowning

对于贝叶斯设置中的回归而言,其他一些相关的系数最常用的是多元正态和多元拉普拉斯。如果要在贝叶斯算法之后对系数进行MAP估计,则使用这些先验可对系数进行收缩惩罚,使其分别等效于使用岭回归或LASSO。以一种不完全是贝叶斯的方式来计算这些结果,如果它们基本上是等效的,那么经济得多。为什么要麻烦呢?

Answers:


11

以下是一些您可能会比较常客和贝叶斯方法的链接:

简而言之,就我所了解的方式而言,给定一组特定的数据,该常客主义者认为,存在从中生成所述数据的真实基础分布。无法获得确切的参数是有限样本量的函数。另一方面,贝叶斯认为我们从一些关于参数的假设开始(即使是在不知不觉中),并使用数据完善我们对那些参数的看法。两者都试图建立一个可以解释观察结果并做出预测的模型。不同之处在于假设(实际假设和哲学假设)。作为一种粗俗,不严格的陈述,可以说常客认为参数是固定的,数据是随机的。贝叶斯认为数据是固定的,参数是随机的。哪个更好或更可取?要回答您必须深入挖掘并意识到每个假设都有哪些假设(例如,参数渐近正常吗?)。


2
很多很棒的有趣的答案,但这最直接地回答了我的问题。谢谢
HFBrowning

@Avraham第一条链接已断开
Erik

1
@ErikHambardzumyan谢谢。找到了保存在Wayback机器上的版本。
阿夫拉罕

10

两种方法之间的对比的许多有趣方面之一是,很难对我们在频繁主义者领域中获得的许多量进行正式解释。一个例子是惩罚方法(收缩)的重要性日益提高。当获得惩罚的最大似然估计时,偏颇点估计和“置信区间”很难解释。另一方面,使用集中在零附近的先验分布向零惩罚的参数的贝叶斯后验分布具有完全标准的解释。


1
这是个好的观点。我不知道当先选择lambda时是否主要正确。通常,人们可能会使用交叉验证来选择lambda,以优化样本外预测误差。在这种情况下,奇怪的是,lambda等于您为分析带来的“先前信息”,这让我感到很奇怪。
gung-恢复莫妮卡

1
如果惩罚是二次方的,那么这相当于均值零的高斯先验,我相信。[不要使用预测误差进行优化;请使用惩罚性对数似然法或有效的AIC。]经常有人通常不知道如何计算不确定性。λ=σ-2λ
Frank Harrell 2014年

3
我想说的λ是之前的超参数(这是更贝叶斯你可以有一个超事先在边缘化那以及jmlr.org/papers/volume8/cawley07a/cawley07a.pdf
Dikran有袋动物

5

我是从Stan用户组偷来的。迈克尔·贝当古(Michael Betancourt)在贝叶斯推理中提供了关于身份可识别性的非常好的讨论,我相信这取决于您要求将两种统计学派进行对比。

贝叶斯分析的第一个区别是先验的存在,即使存在弱先验,也将把这四个参数的后验质量约束到一个有限的邻域中(否则,您本来就不会有一个有效的先验)。尽管如此,在后验将不会在无限数据的范围内收敛到点质量的意义上,您仍然可以具有不可识别性。但是,从非常实际的意义上讲,这并不重要,因为(a)无限数据限制无论如何都不是真实的,并且(b)贝叶斯推断不报告点估计,而是报告分布。在实践中,这种不可识别性将导致参数之间的相关性很大(也许甚至不具有凸性),但是适当的贝叶斯分析将识别这些相关性。即使您报告单个参数边际,

简单的例子:考虑与参数的模型μ 2与似然Ñμ1个μ2ñX|μ1个+μ2σμ1个+μ2=0μ1个μ2

μ1个μ2μ1个μ2


3

贝叶斯方法与频度方法之间的主要区别在于概率的定义,因此,如果有必要严格地将概率视为长期运行频率,则频度方法是合理的,如果不是,则应使用贝叶斯方法。如果任何一种解释都可以接受,那么贝叶斯和频频论方法可能是合理的。

另一种表达方式是,如果您想知道可以从特定实验中得出的推论,您可能想成为贝叶斯方法;如果您想得出有关某些实验(例如质量控制)的结论,那么频繁使用的方​​法非常适合。

本质上,重要的是要知道您想回答什么问题,并选择最直接回答该问题的分析形式。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.