贝叶斯与惯常论者对概率的解释


37

有人能很好地概括一下贝叶斯方法和频率论方法之间的差异吗?

据我了解:

经常性的观点认为,数据是具有特定频率/概率(定义为事件的次数相对于试验次数接近无穷大)的可重复的随机样本(随机变量)。基本参数和概率在此可重复过程中保持恒定,并且变化是由于的变化而不是概率分布(对于某些事件/过程固定的)所致。Xn

贝叶斯观点认为,数据是固定的,而某个事件的频率/概率可能会发生变化,这意味着分布的参数会发生变化。实际上,您获得的数据会更改参数的先前分布,该参数会针对每组数据进行更新。

在我看来,频率论者的方法似乎更实用/合乎逻辑,因为事件具有特定概率且变异在我们的采样中似乎是合理的。

此外,大多数研究数据分析通常是采用常识性方法进行的(即置信区间,具有p值的假设检验等),因为它很容易理解。

我只是想知道是否有人可以简要介绍一下对贝叶斯方法与频率论方法的解释,包括贝叶斯统计量的频率因子p值和置信区间。另外,可以理解其中一种方法优于另一种方法的具体示例。


1
如果您说常识性统计推断方法更实用,那么在某些场合中您会被愤怒的暴民袭击。(好的,也许那句话有些夸张。)我不同意置信区间比后验概率区间更容易理解。(无论如何,请在下面看到我的答案。我认为这直接关系到问题的实质,尽管除了知道是多少外,没有其他数学方法。)1/2
Michael Hardy

@DilipSarwate好的,下次我会记住这一点。但这次我似乎得到了一些不错的答案,所以也许我会在这里完成一下:D
BYS2

Answers:


27

频率论方法中,它被断言,其中概率有意义的唯一意义是成功的次数的试验中的序列,即,作为所述限制值

p=limnkn

其中是成功次数,是试验次数。特别是,将概率分布与parameter关联起来没有任何意义。kn

例如,考虑具有参数的伯努利分布中的样本(即,它们的值1的概率为而值0的概率为)。我们可以将样本成功率定义为X1,,Xnpp1p

p^=X1++Xnn

和谈论的分布上的值有条件,但它没有意义颠倒的问题,并开始谈论的概率分布条件上的观测值。特别是,这意味着当我们计算置信区间时,我们将置信区间的末端解释为随机变量,并且我们谈论的是“区间包含真实参数的概率”,而不是“参数为在置信区间内”。p^ppp^

贝叶斯方法中,我们将概率分布解释为量化关于世界的不确定性。特别是,这意味着我们现在可以有意义地讨论参数的概率分布,因为即使参数是固定的,我们对其真实值的了解也可能受到限制。在上面的示例中,我们可以使用贝叶斯定律反转概率分布,从而得出f(p^p)

f(pp^)posterior=f(p^p)f(p^)likelihood ratiof(p)prior

问题是我们必须在分析中引入先验分布-这反映了我们在看到的实际值之前对值的信念。先验的作用经常在常人主义方法中受到批评,因为有人认为先验的作用将主观性引入了原本严峻的客观世界。pXi

在贝叶斯方法中,不再谈论置信区间,而是谈论可信度区间,可信度区间具有更自然的解释-给定95%的可信区间,我们可以分配参数在区间内的95%概率。


6
另一方面,对常客主义方法的批评是,它与人们对概率的看法不一致。考虑人们如何谈论一次性事件的“概率”,例如恐龙的灭绝,或“确定性”的“概率”,例如明天的太阳升起……

14
值得一提的是,在实践上,常人和贝叶斯方法之间的差距并不那么大:任何能产生有用和自洽结果的常人方法通常都可以用贝叶斯解释,反之亦然。特别是,用贝叶斯术语重现频度计算通常会产生给定特定先验的后验规则。然后,人们会问:“那么,先验实际上是一个合理的假设吗?”
Ilmari Karonen 2012年

谢谢您的回答,这符合我的一般理解。但是,我想知道是否可以澄清一件事,如何在贝叶斯定律公式中找到数据/样本成功率(f(p-hat))的概率?我已经通读了一些工作示例,并且我大致了解了如何推导f(p-hat | p)和先前的f(p),但到目前为止,f(p-hat)仍然使我难以理解。如果您有某些资源的链接,那将是非常棒的:D。谢谢!
BYS2'7

@IlmariKaronen。好的,您是说,如果我进行的一项研究得出了以置信区间表示的某些结果,那么我可以重铸数据并进行贝叶斯分析吗?结果差不多一致吗?
BYS2'7

@Karonen所说的并不完全正确。两种最常见的频频技术是点估计(通常是最大似然估计)和假设检验,而这两种方法都不能真正给出自然的贝叶斯解释。
Jules

20

您对频率概率的解释是正确的:此设置中的随机性仅是由于采样不完整所致。从贝叶斯观点来看,概率是“主观的”,因为它们反映了主体对世界的不确定性。说分布的参数“改变”不是很正确。由于我们没有有关参数的完整信息,因此随着我们收集更多信息,对参数的不确定性会改变。

两种解释在应用程序中都是有用的,根据情况的不同,哪种解释更有用。您可以查看Andrew Gelman的博客,了解有关贝叶斯应用程序的想法。在许多情况下,贝叶斯主义者将其称为“先验”,频繁主义者将其称为“常规化”,因此(从我的角度来看),兴奋会很快离开房间。实际上,根据伯恩斯坦·冯·米塞斯定理,在相当弱的假设下,贝叶斯推论和频率推论实际上是渐近等价的(尽管该定理对于无限维分布是无效的)。您可以在此处找到许多参考资料。

自从您要求解释后:我认为在对科学实验进行建模时,按照常人观点是很有意义的。对于机器学习中的某些应用或归纳推理(或学习)建模,贝叶斯概率对我来说更有意义。在许多情况下,以固定的“真实”概率为事件建模似乎是难以置信的。

对于一个回到拉普拉斯的玩具示例,请考虑明天太阳升起的可能性。从频率论者的角度来看,我们必须假设无限多个宇宙来定义概率。作为贝叶斯主义者,只有一个宇宙(或者至少不需要很多)。我们非常强烈地相信,明天会再次升起,这使我们对太阳升起的不确定性受到抑制。


17

贝叶斯概率解释是信度解释。

贝叶斯可能说10亿年前火星上有生命的概率是。1/2

一个常客会拒绝给这个提议分配一个概率。在所有情况的一半中都不能说这是对的,因此不能分配概率。1/2


2
与RT Cox 的经典论文相比,没有什么地方可以比使用贝叶斯方法的普遍性(逻辑扩展)来思考更狭窄的频率论者方法的局限性了。
gwr

2
考克斯还写了一本书,由约翰·霍普金斯(Johns Hopkins)出版,题为《概率推断的代数》。@gwr
Michael Hardy

1
伊恩·哈金(Ian Hacking)在他的《概率与归纳逻辑入门》一书中说得很好。他说:“贝叶斯人能够将个人概率或信念程度附加到单个命题上。强硬的频率教条主义者认为概率只能附加在一系列事件上。”
Buttons840 '18

9

克里斯给出了一个很好的简单化的解释,正确地区分了两种概率方法。但是,频率论者概率论不仅仅着眼于成功的长远比例。我们还考虑从分布中随机采样的数据,并通过采用某些类型的数据平均值(例如,平均值是观察值的算术平均值)来估计分布的参数,例如均值和方差。估计值称为抽样分布。

在频率理论中,我们能够显示出诸如均值之类的参数,这些参数是通过对样本求平均值而得出的,估计值将收敛至真实参数。采样分布用于描述对于任何固定样本大小n而言,估计与参数的接近程度。通过精确度(例如均方误差)来定义闭合。

克里斯(Chris)指出了任何参数(例如均值),贝叶斯算法在其上附加了先验概率分布。然后,给定数据贝叶斯规则,以计算该参数的后验分布。对于贝叶斯,关于参数的所有推论都基于该后验分布。

频繁者构造置信区间,该区间是参数的合理值的区间。它们的构造基于频繁发生的概率,即如果对独立样本重复使用了多次生成间隔的过程,那么实际上包含参数真实值的间隔比例将至少为某个预先设定的置信度(例如95% )。

贝叶斯使用后验分布作为参数来构造可信区域。这些只是参数空间中的后分布在其上积分以获得预定概率(例如0.95)的简单区域。贝叶斯将可信区域解释为包含参数真实值的可能性很高(例如,预先指定的0.95)的区域。


1
贝叶斯将可信区域解释为包含参数真实值的可能性很高(例如,预先规定的0.95)的区域。如果参数是随机变量怎么办?

@Procrastinator好吧,也许您希望我对我说它覆盖了参数分配中很高的预定比例。但是,如果X是具有分布f的随机变量,并且我们为其构造了一个可靠的区域,则该区域确实表示该随机变量的实现将位于该区域中的概率。
Michael Chernick

我同意这个解释。重要的是要阐明,随机变量的实现不是参数的真实值。

@Procrastinator,这是您提出的一个有趣的观点。但是,我对贝叶斯概率的理解是,许多贝叶斯主义者与经典统计学家一致认为所讨论的参数只有一个TRUE值(它是固定的,但未知)。由于我们的知识水平不完善,正是分布该参数的不确定性。因此,如果您以这种方式考虑,那么迈克尔·切尔尼克(Michael Chernick)的最初声明是正确的,不是吗?
BYS2'7

2
@MichaelChernick我认为对贝叶斯信誉区域的含义有误解。假设参数的真实值为并且选择上的统一先验。因此,没有可信区间包含参数的真实值,这与您的推理相矛盾。θ0=1(1,100)

2

从“现实世界”的角度来看,我发现常客主义者与经典或贝叶斯“解决方案”之间的一个主要区别,该解决方案至少适用于三种主要情况。选择一种方法的不同之处取决于您是需要一种受总体概率影响的解决方案,还是需要一种受单个概率影响的解决方案。以下示例:

  1. 如果已知有5%的概率在给定的年份内有40岁以上的男性死亡并需要人寿保险,那么保险公司可以使用5%的POPULATION百分比来估算其成本,但是要说每个40岁以上的男性仅5%的死亡几率...是没有意义的...因为5%的人具有100%的死亡几率-这是一种常客的方法。在个人层面,事件要么发生(概率为100%),要么没有发生(概率为0%)。但是,基于此有限的信息,无法预测死亡概率为100%的个体,而5 %“平均”人口概率在个人层面上是无用的。

  2. 上面的论点同样适用于建筑物中的火灾,这就是为什么人口中所有建筑物都需要洒水装置。

  3. 上述两个论点同样适用于信息系统的马裤,损坏或“骇客”。人口百分比是无用的,因此必须保护所有系统。


2
在这三种情况中的任何一种情况下,我都不认为是常客方法。它们似乎都依赖于回顾性(因此无用)的概率概念,而经典模型中没有使用。例如,断言“该事件要么发生……要么没有发生”是正确的,但与概率无关。
ub

0

解释的选择取决于问题。如果您想知道机会游戏中的赔率,经典解释会解决您的问题,但是统计数据是无用的,因为骰子没有记忆。

如果您希望根据过去的经验来预测将来的事件,那么常客的解释是正确且充分的。

如果您不知道是否发生了过去的事件,并且希望评估发生该事件的可能性,则必须先了解您的信念,即您已经知道该事件发生的可能性,并在获得信念时更新您的信念新数据。

由于问题与信仰程度有关,并且每个人对先验的看法可能不同,因此解释必定是主观的,也就是贝叶斯。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.