用简单的英语进行贝叶斯和常识性推理


339

您将如何用简单的英语描述将贝叶斯与常识推理区分开的特征?


当您有两个数据集时,这个关于得出单个碗选手的推论的问题 -其他选手的结果和新选手的结果,是一个很好的自然例子,说明了我的答案试图用简单的英语解决的差异。
彼得·埃利斯

4
也许你们中的某些好人也可以对哲学。stackexchange.com上提出的关于贝叶斯和频繁主义解释的问题做出回答。
Drux

Answers:


197

这是我向奶奶解释的基本区别:

我将手机放错地方了。我可以使用仪器底座上的电话定位器来定位电话,当我按电话定位器时,电话开始发出蜂鸣声。

问题:我应该搜索我家的哪个区域?

惯常推理

我能听到电话的哔哔声。我还有一个思维模型,可以帮助我确定声音的来源。因此,在听到哔哔声后,我推断出我必须搜索房屋的区域以找到手机。

贝叶斯推理

我能听到电话的哔哔声。现在,除了可以帮助我识别声音来源区域的思维模型之外,我还知道我过去放错电话的位置。因此,我会结合使用哔哔声和以前有关我以前放错电话位置的信息来推断出我的推论,以确定我必须搜索才能找到电话的区域。


11
我喜欢这个比喻。如果存在一个已定义的问题(基于数据集),在该问题中使用惯常推理得出答案,而使用贝叶斯推理得出答案(最好使用R脚本来处理这两种推理),那么我会觉得非常有用。我问得太多了吗?
Farrel

15
我能想到的最简单的事情是抛硬币n次并估计正面的概率(用p表示)。假设我们观察到k个头。那么获得k个头的概率为:P(n个试验中的k个头)=(n,k)p ^ k(1-p)^(nk)频繁推断将使上述最大化,从而得出p = k的估计值/ n。贝叶斯会说:嘿,我知道p〜Beta(1,1)(这等效于假设p在[0,1]上是均匀的)。因此,更新后的推论将是:p〜Beta(1 + k,1 + nk),因此p的贝叶斯估计将是p = 1 + k /(2 + n)我不知道R,对不起。

41
应该指出的是,从常客的观点来看,没有理由不能将先验知识整合到模型中。从这个意义上讲,常客视图更简单,您只有一个模型和一些数据。无需将先验信息与模型分开。
罗比·麦基利姆

1
@ user28作为对您的评论的评论,如果,那么常客在看到头(分别为头)的结果时,将估计(分别为),即硬币为两头或两尾。贝叶斯估计分别为和,这确实允许它是一种偏少的代币。p = 0 p = 1 ķ = 0 ķ = 3 1 / 5 4 / 5n=3p=0p=1k=0k=31/54/5
Dilip Sarwate

3
@ BYS2编程语言叫做R.
user1205901

102

舌头紧紧贴在脸颊:

贝叶斯定义“概率”的方式与大多数非统计学家完全相同,即表明命题或情况的合理性。如果您问他一个问题,他会给您直接答案,并分配概率来描述特定情况下可能的结果的可行性(并陈述他先前的假设)。

经常发生的人是相信概率代表事件发生的长期频率;如果需要,他将创造一个虚拟的种群,从中可以将您的特定情况视为随机样本,以便他可以有意义地谈论长期运行的频率。如果您问他有关特定情况的问题,他将不会直接给出答案,而是要对这一(可能是虚构的)人口做出说明。许多非经常性统计学家会很容易将答案弄糊涂,并将其解释为关于特定情况的贝叶斯概率。

但是,必须指出的是,大多数频率论方法都具有贝叶斯等效项,即在大多数情况下将给出基本相同的结果,差异主要是哲学问题,而实际上是“课程马”问题。

您可能已经猜到了,我是贝叶斯专家和工程师。; o)


36
作为非专家,我认为整个辩论的关键是人们实际上像贝叶斯主义者那样推理。您必须经过培训才能像常客一样思考,即使这样,也容易滑脱,要么像贝叶斯那样推理,要么就展示您的推理。“该值有95%的机会在此置信区间内。” 说够了。
韦恩

8
关键还在于考虑将20世纪的统计数据称为“古典”游说,而拉普拉斯和高斯在19世纪开始使用的统计数据却没有……
gwr 2015年

3
也许我从事频繁事务工作的时间太长了,但是我不确定贝叶斯观点是否总是直观的。例如,假设我对感兴趣的真实世界参数感兴趣,例如人口的平均身高。如果我告诉您“在我可靠的区间中有95%的机率是感兴趣的参数”,然后再问一个问题:“如果我们为不同的参数创建了100个这样的区间,那么我们期望它们包含的比例是多少参数的实际值?”,答案不是 95 的事实一定会使某些人感到困惑。
悬崖AB

4
@CliffAB,但是为什么要问第二个问题?关键是它们是不同的问题,因此具有不同的答案也就不足为奇了。贝叶斯算法可以回答这两个问题,但是答案可能有所不同(在我看来,这是合理的)。频繁出现的问题只能回答一个问题(由于概率的限制性定义),因此(隐式)对两个问题都使用相同的答案,这就是导致问题的原因。一个可信的间隔不是一个置信区间,但贝叶斯可以构造一个置信区间和置信区间。
迪克兰有袋博物馆,2016年

4
我的评论是回应韦恩的;人们在贝叶斯语境中“自然地”思考的想法,因为更容易解释一个可信区间。我的观点是,尽管构建一个合理的区间(即,少说一个汤)的正确解释要容易得多,但我认为非统计学家也很可能对其真正含义感到困惑。
Cliff AB

63

非常粗鲁地说:

经常性:抽样是无限的,决策规则可能很敏锐。数据是可重复的随机样本-有频率。基本参数是固定的,即在此可重复采样过程中它们保持恒定。

贝叶斯(Bayesian): 未知量的处理是概率性的,世界状况可以随时更新。从实现的样品中观察数据。参数是未知的,并可能描述。是固定的数据。

有一篇精彩的博客文章,深入介绍了贝叶斯和频率论者如何解决相同问题的例子。为什么不亲自回答问题然后再检查呢?

问题(摘自Panos Ipeirotis的博客):

您有一枚硬币,当翻转时以概率p朝上结束,以概率1-p朝尾结束。(p的值未知。)

尝试估计p,您将硬币翻转了100次。它结束了71次。

然后,您必须决定以下事件:“在接下来的两次抛掷中,我们将连续获得两个头。”

您敢打赌该事件会发生还是不会发生?


5
0.712=0.5041

5
在该博客文章的结尾处说:“与其使用统一分布而不是先验,我们还可以更加不可知。在这种情况下,我们可以使用Beta(0,0)分布作为先验。这种分布对应在任何情况下均值分布的可能性均等的情况下,在这种情况下,贝叶斯方法和常客主义这两种方法得出的结果相同。” 到底是哪种总结!
tdc 2012年

13
该博客文章的最大问题是它不能充分描述非贝叶斯(但理性)决策者的行为。只不过是一个稻草人。
ub

1
@tdc:贝叶斯(Jeffreys)先验为Beta(0.5,0.5),有人会说这是唯一合理的先验。
尼尔·G

1
@mcb-精确
digitgopher

42

假设一个人掷出一个六面骰子,结果为1、2、3、4、5或6。此外,他说,如果它落在3面上,他会给你一本免费的教科书。

然后非正式地:

频率论者会说,每个结果都有发生的等于1/6的机会。她认为概率是从长期频率分布中得出的。

但是贝叶斯人会说一秒钟,我知道那个人,他是著名的骗子戴维·布莱恩(David Blaine)!我有一种感觉,他在做些什么。我要说的是,它只有3%的机会落在3 BUT上, 我将重新评估该信念,并随着他掷骰子的次数增加对其进行更改。如果我看到其他数字同样频繁地出现,那么我将把机会从1%迭代地增加到稍高一些,否则我将进一步减少它。她将概率视为对命题的信任程度。


24
我认为常客会(详细地)指出他的假设,并且会避免做出任何有用的预测。也许他会说:“假设死亡是公平的,那么每个结果都有六分之一的机会发生。此外,如果掷骰子是公平的,而大卫·布莱恩掷骰子17次,则只有5%的机会发生它永远不会落在3上,所以这样的结果会让我怀疑死是公平的。”
Thomas Levine

那么“可能性”(就像在MLE中一样)会成为常客的“概率”吗?
赤羽市

40

只是有点乐趣...

贝叶斯人隐约地期待着一匹马,瞥见一头驴,坚信自己已经看到了ule子。

从此站点:

http://www2.isye.gatech.edu/~brani/isyebayes/jokes.html

在同一个站点上,一篇不错的文章...

“贝叶斯定理的直观解释”

http://yudkowsky.net/rational/bayes


14
在这种情况下,常客不会是知道驴,ule子和马人口比例的人,并且在观察一包of子后便开始计算p值,以了解统计上是否存在显着增加在mu子的人口比例。
Andrew

30

贝叶斯被要求下注,其中可能包括苍蝇会更快爬上墙,药物将挽救大多数生命,或哪些囚犯应入狱的任何东西。他有一个带提手的大箱子。他知道,如果他将自己所知道的一切都放进盒子里,包括他的个人见解,然后转动手柄,它将为他做出最好的决定。

要求常客写报告。他有一本大黑规。如果他的规则手册涵盖了要求他提出报告的情况,则他可以遵循规则并撰写措辞谨慎的报告,以至于错了,在最坏的情况下,错误率为100分之一(或20分之一,或1分之一)时间,无论他的报告的说明是什么)。

这位常客知道(因为他已写过报告),贝叶斯有时会下注,在最坏的情况下,如果他的个人意见不正确,可能会导致糟糕的结果。该常客也知道(出于同样的原因),如果每次与贝叶斯不同时都对贝叶斯赌,那么从长远来看,他将输。


“从长远来看,他会输”。我认为“他”是贝叶斯人吗?从长远来看,他们不会平等吗?贝叶斯主义者可以学习和改变自己的个人见解,直到与实际(但未知)的事实相匹配为止。
lucidbrot

26

用简单的英语来说,贝叶斯推理和频率论推理的区别在于两种不同的回答方式:

什么是概率?

大多数差异本质上归结为每个人如何回答这个问题,因为它基本上定义了该理论的有效应用领域。现在,如果不进一步产生更多问题,您将无法就“普通英语”给出任何答案。对我来说,答案是(您可能会猜到)

概率是逻辑

我的“非普通英语”原因是,如果我们用表示真,表示,则命题演算是概率演算的特例。10。另外,概率的演算可以从命题的演算中得出。这与“贝叶斯”推理最紧密地相符-尽管它还通过提供分配概率的原理以及操纵它们的原理来扩展应用程序中的贝叶斯推理。当然,这导致了后续问题“什么是逻辑?” 对我而言,作为这个问题的答案,我能给出的最接近的答案是:“逻辑是在给定的一组假设下,理性人的常识判断”(什么是理性人?等)。逻辑具有贝叶斯推理具有的所有相同功能。例如,逻辑不会告诉您要假定什么或“绝对正确”。它仅告诉您一个命题的真相如何与另一个命题的真相相关。您必须始终为逻辑系统提供“轴”,才能开始得出结论。它们也具有相同的局限性,因为您可以从矛盾的公理中获得任意结果。但是“轴心”只不过是先验概率而已设置为1

对于常识性推理,我们有答案:

概率就是频率

尽管我不确定“频率”在这里使用的方式是否是简单的英语术语-也许“比例”是一个更好的词。我想在常问问题答案中添加一个事件的概率被认为是真实的,可测量的(可观察的)数量,该数量独立于计算该事件的人/对象而存在。但是我不能以“普通英语”的方式做到这一点。

因此,一个“普通英语”版本的不同之处可能在于,频繁性推理是尝试从“绝对”概率进行推理,而贝叶斯推理是尝试从“相对”概率进行推理。

另一个不同之处是,在将现实世界中的问题转换为理论的抽象数学时,常识性基础更加模糊。一个很好的例子是理论中“随机变量”的使用-它们在数学的抽象世界中有一个精确的定义,但是没有明确的程序可以用来确定某些观测量是否为“随机”。变量”。

贝叶斯推理方式,“随机变量”的概念不是必需的。因为数量未知,所以将概率分布分配给一个数量-这意味着不能从我们所拥有的信息中进行逻辑推断。这一次在可观察量和理论之间提供了简单的联系-因为“未知”是明确的。

您还可以在上面的示例中看到这两种思维方式的进一步差异-“随机”与“未知”。“随机性”的措辞使“随机性”看起来像是实际数量的属性。相反,“未知”取决于您要询问哪个人该数量-因此,这是统计人员进行分析的属性。这就产生了经常附加在每种理论上的“客观”形容词和“主观性”形容词。可以很容易地表明,“随机性”不能成为某些标准示例的属性,只需简单地让两个经常进餐的人获得相同数量的不同信息,以决定其“随机性”。一种是通常的伯努利·厄恩(Bernoulli Urn):常客1在绘画时被蒙住眼睛,而常客2站在standing上,而看着常客1从the上拉球。如果“随机性”的声明是骨灰盒中球的属性,则它不能取决于常客1和2的不同知识-因此,两个常客应该给出相同的“随机”或“非随机”声明。


3
如果您可以在不参考常识的情况下重写此代码,我将很感兴趣。
彼得·埃利斯

@PeterEllis-常识有什么问题?我们都有它,不使用它通常是愚蠢的……
概率

13
它实在是太有争议了,而且在文化上也太具体了。“常识”是在这种特定文化中被认为是明智的做事方式的捷径(在时间和空间上,对其他文化而言,它们常常显得不明智),因此在定义中提及它会忽略关键问题。作为逻辑定义的一部分,这尤其无济于事(因此,我认为这是在特定上下文中的“理性人”的概念-尤其是因为我猜测您对“理性人”的定义将是一个逻辑人)有常识的人!)
彼得·埃利斯

4
他不能提供一个,他的论点是没有普遍的定义,只有文化特定的定义。来自不同文化背景的两个人(包括不同的统计教育风格)很可能会对在特定情况下明智的做法有两种不同的理解。
naught101

2
这个答案具有善意(对于简单的英语来说是什么?),但是我不相信(对于贝叶斯来说是什么!)以下说法是正确的:“因为如果您接受逻辑……您还必须接受贝叶斯推理”。例如,如果您认为不是将数学的抽象理论转化为现实世界,您会发现公理方法可以与频率论和贝叶斯论证一致!可以说,第一种情况是Kolmogorov,第二种情况是Jeffreys。本质上,逻辑是概率论。不是它的解释。
Graeme Walsh

21

实际上,我认为围绕该问题的许多哲学都是立竿见影的。并不是要消除辩论,而是要谨慎。有时,实际问题会被优先考虑-我在下面举一个例子。

同样,您可以轻松地辩称存在两种以上的方法:

  • 内曼·皮尔逊('Frequentist')
  • 基于可能性的方法
  • 完全贝叶斯

一位高级同事最近提醒我:“许多普通语言中的人谈论常客和贝叶斯。我认为更有效的区分是基于可能性和常客的。最大似然法和贝叶斯方法都遵循似然原理,而常客方法则没有。 ”

我将从一个非常简单的实际示例开始:

P(+|S)=1
P(Correct|S)=1
P(|H)=0.95
P(+|H)=0.05

因此,根据患者是健康还是生病,测试的准确度为100%或95%。综上所述,这意味着测试的准确度至少为95%。

到现在为止还挺好。这些是常客的发言。这些陈述很容易理解并且是正确的。无需为“频率论解释”而费解。

但是,当您尝试扭转局面时,事情会变得有趣。根据测试结果,您可以了解患者的健康状况吗?给定阴性结果,患者显然健康,因为没有假阴性。

但是,我们还必须考虑检验为阳性的情况。测试是否由于患者实际生病而呈阳性,还是假阳性?这是常客和贝叶斯分叉的地方。每个人都会同意目前无法解决。该常客将拒绝回答。贝叶斯将准备给您答案,但是您必须事先给贝叶斯一个答案-即告诉它有多少患者患病。

回顾一下,以下陈述是正确的:

  • 对于健康的患者,该测试非常准确。
  • 对于生病的患者,该测试非常准确。

如果您对这样的陈述感到满意,那么您将使用惯常解释。这可能会因项目而异,具体取决于您要查找的问题类型。

但是,您可能需要做出不同的陈述并回答以下问题:

  • 对于那些获得阳性测试结果的患者,测试的准确性如何?

这需要先验和贝叶斯方法。还请注意,这是医生感兴趣的唯一问题。医生会说:“我知道患者会得到阳性结果或阴性结果。我现在也知道阴性结果意味着患者健康并且可以被送回家。现在,唯一让我感兴趣的患者是那些一个积极的结果-他们生病了吗?”

总结:在这样的例子中,贝叶斯将同意常客所说的一切。但是贝叶斯主义者会辩称,常客的说法虽然是正确的,但却不是很有用。并认为有用的问题只能事先得到回答。

一位常客会依次考虑参数的每个可能值(H或S),并询问“参数是否等于该值,我的测试正确的概率是多少?”

贝叶斯算法将依次考虑每个可能的观测值(+或-),然后问:“如果我想我刚刚观测到该值,那么关于H相对S的条件概率,这对我有什么影响?”


1
您是说For sick patients, the test is NOT very accurate.忘记了NOT吗?
agstudy 2014年

1
在两种情况下都非常准确,所以不,我没有忘记一个词。对于健康的人,结果将在95%的时间内是正确的(即“阴性”)。对于病人来说,结果将在95%的时间内是正确的(即“阳性”)。
2014年

我认为最大程度的“弱点”是假设数据具有先验先验,而“全贝叶斯”则更灵活选择先验。
Joe Z.

为了完成该示例,假设我们要测试的人口中有0.1%患有D病:这不是我们的先前经历。更有可能的是,大约30%的就诊医生且症状与D相匹配的患者实际上患有D(根据不同的信息,例如不同疾病多久出现相同症状,这可能或多或少)。因此,接受测试的人中有70%是健康的,有66.5%的人结果为阴性,有30%/ 33.5%的人患病。因此,如果给出阳性结果,则我们患者患病的后发概率为89.6%。下一个难题:我们如何知道70%的应试者有D?
Qwertie

7

贝叶斯统计和惯常主义统计是兼容的,因为它们可以被理解为基于过去事件和假定模型评估未来事件概率的两个极限情况,如果一个人承认在大量观察的极限内,对系统仍然存在,从这个意义上说,非常多的观察结果等于知道模型的参数。

假设我们进行了一些观察,例如10次硬币翻转的结果。在贝叶斯统计中,您从观察到的内容开始,然后评估未来观察到的可能性或模型参数。在常客统计中,您从对真实情况的想法(假设)开始,假设已经进行了大量观察,例如,如果您多次抛硬币,硬币是无偏的,则抬头为50%。基于大量观察(假设)的这些情况,您可以像进行观察那样评估观察的频率,即10次硬币掷出不同结果的频率。只有到那时,您才可以获取实际结果,将其与可能结果的发生频率进行比较,并确定结果是否属于那些预期会频繁发生的结果。如果是这种情况,您可以得出结论,所做的观察与您的情况并不矛盾(=假设)。否则,您得出结论认为所做的观察与您的方案不兼容,并且您拒绝了该假设。

因此,贝叶斯统计从观察到的数据开始,并评估可能的未来结果。频繁统计数据始于对假设某事物的观察结果的抽象实验,然后才将抽象实验的结果与实际观察到的结果进行比较。否则,这两种方法是兼容的。他们都基于所做或假设的某些观察评估未来观察的可能性。

我开始以一种更正式的方式写这篇文章:

将贝叶斯推理定位为常识性推理的特定应用程序,反之亦然。无花果。

http://dx.doi.org/10.6084/m9.figshare.867707

手稿是新的。如果您碰巧阅读它并发表评论,请告诉我。


6

我要说的是,他们以不同的方式看待概率。贝叶斯是主观的,并使用先验信念来定义未知参数可能值的先验概率分布。因此,他依赖于deFinetti的概率论。该常客将概率视为与观察到的比例相关的极限频率的一部分。这与Kolmogorov和von Mises提出的概率论相一致。
一个常客仅使用似然函数进行参数推断。贝叶斯(Bayesian)将其乘以并乘以一个先验并对其进行归一化,以获得他用于推理的后验分布。


4
+1很好的答案,但应该强调的是,贝叶斯方法和频率方法在概率的解释方面有所不同。另一方面,柯尔莫哥洛夫为概率论提供了公理基础,它不需要像贝叶斯论者或频率论者所采用的那样的解释(!)。从某种意义上说,公理系统有自己的生命!仅凭科尔莫哥罗夫的六个公理,我认为不可能说出他的公理系统是贝叶斯系统还是惯常系统,并且实际上可能与两者都一致。
Graeme Walsh

0

我回答这个问题的方式是,常客将他们看到的数据与期望的数据进行比较。也就是说,他们对如何心智模型频繁的应该发生的事情,然后看看数据,以及它确实发生了。也就是说,根据他们选择的模型,他们看到数据的可能性有多大。

另一方面,贝叶斯结合了他们的思维模式。也就是说,他们有一个基于以前经验的模型,可以告诉他们他们认为数据应该是什么样子,然后将其与观察到的数据结合起来以建立某种``后验''信念。也就是说,他们发现了他们观察到的数据后,他们试图选择的模型有效的可能性。


-2

常客:自然的真实状态是。如果我习惯性地进行这样的分析,则我的答案中有95%是正确的。

贝叶斯:有95%的机会是正确的答案。...我基于您提供给我的数据以及我们之前对事实的猜测得出的结论。


-3

常客:赌骰子。只有骰子的价值会决定结果:您赢还是输。仅取决于机会。

贝叶斯:玩德州扑克。您是唯一看到两张卡片的人。您对桌上的其他玩家有一些了解。您必须调整在翻牌圈,转牌圈和河牌圈获胜的可能性,并可能根据剩下的玩家来调整。他们经常虚张声势吗?他们是好斗的还是消极的玩家?所有这些将决定您的工作。决定您是否获胜的不仅是前两张牌的概率。

玩常客扑克意味着每个玩家都将在开始时出示自己的牌,然后在翻牌,转牌和河牌显示之前下注或弃牌。现在,是否赢还是再次取决于机会。


-5

说,如果您头痛,去看医生。假设,在医生的决策集中,头痛的原因有两种,一种是脑瘤(根本原因导致99%的时间头痛),第二种是感冒(这种病在极少数患者中可能引起头痛) 。

然后,基于频频方法的医生决定是,您患有脑瘤。

根据贝叶斯方法的医生决定会告诉您,您得了感冒(即使只有1%的感冒会引起头痛)


1
(-1)不清楚“ Frequentist doc”和“ Bayesian doc”之间的区别是什么。我看不出有什么原因使Frequentist文档会忽略有关感冒引起头痛的数据。贝叶斯文档似乎并没有使用贝叶斯定理或先验,所以我看不出他是贝叶斯如何?
蒂姆

太令人难以置信,无法成为一个有用的甚至有趣的类比。
尼克·考克斯

-6

将一只公猫和一只母猫在钢制的房间里梳了一下,连同足够的食物和水一起待了70天。

一位常客会说,的平均妊娠期为66天,雌猫被抚养时处于发热状态,一旦发热,她将反复交配4至7天。由于可能有很多繁殖行为,并且随后有足够的妊娠时间,因此,当盒子在第70天打开时,很可能会有一窝新生小猫。

贝叶斯人会说,第一天我从盒子里听到了一些严肃的Marvin Gaye的声音,然后今天早上,我听到盒子里传出了很多像小猫一样的声音。因此,如果不了解猫的繁殖知识,很有可能在第70天打开包装盒时,会有一窝新生的小猫。


我写的方式,特别是贝叶斯人对猫的繁殖知之甚少,一开始只有常客会押注那里有小猫。我非常粗略的示例的相关要点主要是,常客一开始就根据数据做出了预测,然后坐下来不合并新的补充数据,而贝叶斯模型开始时并没有太多数据,但是继续合并相关数据。
狮子2010年

3
...为什么非贝叶斯人也不会利用自己的额外数据呢?
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.