像贝叶斯那样思考,像常客一样进行检查:这是什么意思?


35

我正在查看有关数据科学课程的一些演讲幻灯片,可以在这里找到:

https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf

不幸的是,我无法观看此讲座的视频,并且在幻灯片上的某个位置,演示者具有以下文本:

一些关键原则

像贝叶斯一样思考,像常客一样检查(和解)

有人知道这实际上意味着什么吗?我觉得从这可以收集到关于这两种思想流派的深刻见解。


2
认为这可能与模型检查有关:请参阅为什么不允许贝叶斯算法查看残差?
Scortchi-恢复莫妮卡

@Scortchi根据我的收集,这与以某种方式分离训练,验证和测试数据集无关,或者即使在模型的训练阶段也可能不允许贝叶斯调整先验值(使用ML术语)这里)。但是,我仍然对像常客一样受检查意味着什么感到困惑……

1
“适当的”贝叶斯算法从不调整其先验,而仅使用贝叶斯定理根据新信息更新它们。但是我只是在猜测这个“关键原则”可能是关于什么的。
Scortchi-恢复莫妮卡

4
我无法加载链接。我的猜测是,它们的意思是即使您使用贝叶斯方法,您也应该关注频频操作特性:如果您生成的95%可信区间非常紧密,但实际上20%的时间覆盖了真正的关注参数,你应该担心吗?过于严格的贝叶斯可能会说“不”(但实际上很少有这种刚性的贝叶斯存在)。
悬崖AB

3
展望未来的幻灯片,他们赞成经验贝叶斯。可以从以下几组幻灯片中
Cliff AB

Answers:


32

贝叶斯统计学派和常识派之间的主要区别是由于对概率的解释不同。贝叶斯概率是关于个人相信事件将(或已经)发生的陈述。频繁发生概率是关于随着事件数量增加而在极限内发生的类似事件的比例的陈述。

对我来说,“像贝叶斯一样思考”意味着在出现新信息时更新您的个人信念,而“像常客一样检查[或担心]”意味着关注统计程序在使用过程中的综合使用情况,例如,可信区间的覆盖范围是多少,I / II类型的错误率是多少,等等。


1
谢谢您的回答。简洁有效,即使对于像我这样的外行也是如此!

2
通过调查先验的影响或使用非信息性的影响,是否不可能像贝叶斯那样检查或担心?这仅适用于顺序分析吗?关于贝叶斯统计和频率统计与顺序分析相交的地方,有很多工作要做,“信度更新”不是必不可少的,并且在频率统计中可以严格地进行顺序统计。
AdamO

1
是的,您可能会像贝叶斯一样担心,例如调查您先前的影响。不,我的回答不仅适用于顺序分析,即新信息可能一次全部出现。
jaradniemi

15

贝叶斯统计总结了信念,而常客统计总结了证据。贝叶斯认为概率是一种信念。这种包容性和生成性的推理类型对于提出假设很有用。例如,贝叶斯人可能可以任意分配某种可能性给月球是由绿色奶酪制成的概念,而不管宇航员是否实际上已经能够去那里验证这一点。这个假说也许得到了月球遥远的想法的支持。看起来像绿色奶酪。惯常论者不能单凭一个假想,而不是一个稻草人,也不能说证据支持一个假说比另一个假说。即使最大似然也只能生成“与观察到的结果最一致”的统计信息。形式上,贝叶斯统计允许我们跳出框框思考并从数据中提出可辩驳的想法。但这严格是自然产生的假设。

频率统计最好用于确认假设。当实验进行得很好时,常客统计学会通过避免先验来为发现提供“独立的观察者”或“经验的”背景。这与卡尔·波普尔的科学哲学是一致的。证据的重点不是发布某种想法。大量证据与错误的假设相符。证据只能伪造信念。

先验的影响通常被认为是统计推理中的偏见。如您所知,我们可以弥补各种事情发生的原因。从心理上讲,许多人认为观察者的偏见是我们大脑先验的结果,这些先验使我们无法真正权衡所见。尊敬的母亲在沙丘上说“希望观察云”。波普尔提出这个想法很严格。

在我们这个时代一些最伟大的科学实验中,这具有重大的历史意义。例如,约翰·斯诺(John Snow)精心收集了霍乱流行的证据,并断然得出霍乱不是由道德剥夺引起的,并指出该证据与污水污染高度一致:请注意,他并未得出结论因此,斯诺的发现要早于细菌的发现,而对机理或病因学尚无了解。在《物种起源》中也有类似的论述。直到宇航员实际上降落在地面并收集了样本之后,我们才真正知道月球是否由绿色奶酪制成。到那时,贝叶斯后验者对其他可能性的可能性非常低,而常客最多只能说样品与除月尘之外的任何物质都高度不一致。

总而言之,贝叶斯统计适合于假设的产生,而频繁统计则适合于假设的确认。确保在这些工作中独立收集数据是现代统计学家面临的最大挑战之一。


1
感谢您的回答。你说的意思是什么Plenty of evidence is consistent with incorrect hypotheses

2
@Luca可能会在混淆中找到一个常见的统计示例。例如,我可能会说:“吸烟使青少年的肺功能更好”。我可以通过说吸烟是一种兴奋剂来鼓励人们进行更好的体育锻炼,更健康的食欲并鼓励健康的社会化,从而进一步合理化这一点。如果我收集数据,它们确实表明吸烟的青少年肺功能更好。关联结论是正确的,但因果关系是错误的。由于年龄较大的孩子更容易吸烟,因此这种关系因年龄而混乱。
AdamO

谢谢!我从这个写得很好的答案中学到了很多东西。

5

Per Cliff AB对OP的评论,听起来好像他们正在走向经验贝叶斯哲学。贝叶斯思想主要有三大流派,而经验贝叶斯通常是通过常识性方法从数据中估计先验。这与报价不完全一致(这意味着贝叶斯先行提出,之后便出现类似常客的担忧),但我们不应忽视Cliff AB的出色评论。

此外,曾经而且可能仍然存在着贝叶斯流派,认为您无需在贝叶斯过程后进行任何检查。更现代的思想将使用后验预测检查,也许报价所指的是这种双重检查方法。

同样,常客主义哲学关注的是程序,而不是数据推断。因此,也许这也是引用含义的线索。


我认为您是指我的第一条评论,而我的第二条评论是,经过仔细检查,您是正确的,他们非常具体地指的是经验贝叶斯。实际上,令我感到失望的是,这句话只是对经验贝叶斯的认可,而不是更笼统地考虑两种思想流派的优点。那好吧。
悬崖AB

2

在此数据科学课程的背景下,我对“像常客一样进行检查”的解释是,您可以根据保留的验证数据评估预测函数或决策函数的性能。“像贝叶斯一样思考”的建议表达了这样的观点,即从贝叶斯方法派生的预测函数通常会产生良好的结果。


(扮演Devil的拥护者:)为什么贝叶斯方法会带来“好的结果”而常客却不能呢?
蒂姆

贝叶斯方法是该方法的规定。频繁统计可以视为决策理论的一部分,它提供了一个评估任何决策功能的框架(无论是基于贝叶斯原则还是某种频繁原则)。某些方法(例如最大似然方法)通常在频繁使用的上下文中使用,因为它们具有良好的频繁使用属性(例如,渐近地他们做对了事,并且比大多数其他方法更快地到达那里)。贝叶斯方法当然可以由常客使用,但是使用它们的原因会有所不同。
DavidR

贝叶斯方法与决策理论也有很多共同点。我也不认为贝叶斯方法可以在常人上下文中使用(您如何想象在常人上下文中使用先验?)-相反,很多方法都具有贝叶斯解释。我认为讨论这一点没有意义,我的意思是您的发言有点过分简化了。
蒂姆

人们可以证明许多有关贝叶斯方法的良好的常客性,因此从某种意义上说,只要您有足够的数据,就可以做贝叶斯方法是相当安全的。
DavidR

1
假设我想估计硬币翻转中正面的概率p。作为贝叶斯,我将从概率p的先验开始,观察一些数据,然后对p求后验。我们需要得出p的点估计,我选择使用后验分布的均值作为点估计。总而言之,这描述了一种从数据转到点估计的方法。可以以一种经常性的方式评估这种方法:例如,是否有偏见?一致吗?渐近有效?涉及先验的事实本身不应该与常客有关。
DavidR

1

听起来像“像贝叶斯一样思考,像常客一样检查”指的是统计设计和分析中的方法。据我了解,贝叶斯思维涉及对先前情况的某种信念(无论是实验上还是统计上),例如,四年级学生的平均阅读分数是每分钟80个单词,而某些干预措施可能会将其提高到每分钟90个单词。这些是基于先前研究和假设的信念。经常性的思维会根据(干预的)发现进行推断,以获得置信区间或其他统计数据,这些置信区间或其他统计数据是基于这些结果再次发生的理论和实际频率或概率(即“多么频繁”)。例如,干预后阅读得分可能是每分钟91个单词,其95%置信区间为每分钟85到97个单词,并且其相关的p值(概率值)与干预前得分不同。因此,在95%的时间里,干预后新的阅读成绩将在每分钟85到97个单词之间。因此,“像贝叶斯一样思考”-即理论化,假设,看先前的证据,并“像常客一样检查”-即这些实验结果多久发生一次,以及由于机会而不是干预。干预后,新的阅读分数将在每分钟85到97个单词之间。因此,“像贝叶斯一样思考”-即理论化,假设,看先前的证据,并“像常客一样检查”-即这些实验结果多久发生一次,以及由于机会而不是干预。干预后,新的阅读分数将在每分钟85到97个单词之间。因此,“像贝叶斯一样思考”-即理论化,假设,看先前的证据,并“像常客一样检查”-即这些实验结果多久发生一次,以及由于机会而不是干预。


2
您的最后一句话-“像常客一样检查”部分-确实与常客设置无关:贝叶斯估计也会告诉您“我们期望某事发生的频率”或“可能性” ...
蒂姆
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.