这张xkcd漫画(Frequentists vs. Bayesians)取笑了一个得出明显错误结果的常客统计学家。
然而,在我看来,他的推理实际上是正确的,因为它遵循标准的频繁论者方法。
所以我的问题是“他是否正确地采用了常客主义方法?”
- 如果否:在这种情况下正确的常客推断是什么?如何将有关太阳稳定性的“先验知识”整合到频率论方法中?
- 如果是:wtf?;-)
这张xkcd漫画(Frequentists vs. Bayesians)取笑了一个得出明显错误结果的常客统计学家。
然而,在我看来,他的推理实际上是正确的,因为它遵循标准的频繁论者方法。
所以我的问题是“他是否正确地采用了常客主义方法?”
Answers:
主要问题是,第一个实验(太阳升起的新星)是不可重复的,这使其非常不适用于将概率解释为对事件发生频率的估计的频繁主义者方法,这样我们就可以多次重复该实验。相反,贝叶斯概率被解释为我们的信念程度,它给出了所有可用的先验知识,使其适合于有关一次事件的常识性推理。掷骰子实验是可重复的,但我发现任何常客都不大可能故意忽略第一个实验的影响,并对获得的结果的意义如此自信。
尽管似乎作者嘲笑常客主义对可重复实验的依赖以及对先验者的不信任,但使实验设置不适用于常客主义方法论,但我要说,这部漫画的真正主题不是常客主义方法论,而是盲目的追随一般不合适的方法论。是否有趣是取决于您(对我而言),但我认为,比弄清两种方法之间的差异,它更容易引起误解。
据我所知,到目前为止,常客位是合理的:
假设是太阳尚未爆炸的假设,而H 1是太阳尚未爆炸的假设。因此,p值是在H 0下观察结果(机器说“是”)的概率。假设机器正确地检测到中微子的存在,那么如果机器在H 0下说“是”,那是因为机器由于向后滚动两个六分之一而对我们说谎。因此,p值为1/36,因此按照正常的准菲舍尔科学实践,常客将以95%的显着性水平拒绝原假设。
但是,否定原假设并不意味着您有权接受其他假设,因此分析者无法得出常人论断的结论。经常性假设检验体现了证伪主义(某种程度)的思想,您不能证明任何事情都是真实的,只能反驳。因此,如果要断言,则假定H 0为真,并且仅当可以证明H 0与数据不一致时才继续进行。但是,这并不意味着H 1是正确的,只是它可以在测试中幸存下来,并至少在下一次测试中作为可行的假设继续存在。
贝叶斯也只是常识,要注意下注不会有任何损失。我敢肯定,如果考虑到错误肯定和错误否定的成本(Neyman-Peason?),那么经常采用的方法会得出与长期收益最佳策略相同的结论。
总结一下:这里的常客和贝叶斯人都太草率了:常客在不考虑适当程度的重要性,假阳性/假阴性成本或问题的本质(即不使用常识)的情况下盲目遵循食谱。贝叶斯草率的没有明确说明其先验条件,但是再一次使用常识,他所使用的先验条件显然是正确的(机器躺着比太阳实际上爆炸的可能性大得多),草率也许是可以原谅的。
为什么这个结果看起来“错误”?贝叶斯会说结果似乎是违反直觉的,因为我们对太阳何时会爆炸有“先验”的信念,而这台机器提供的证据不足以洗去这些信念(主要是由于不确定性,因为硬币翻转)。但是,常客能够进行这样的评估,他只是必须在数据的背景下进行评估,而不是相信。
悖论的真正根源在于,进行的统计数据统计并未考虑所有可用数据。漫画中的分析没有问题,但是结果似乎很奇怪,因为我们知道太阳很可能不会长时间爆炸。但是我们怎么知道呢?因为我们进行了测量,观察和模拟,可以限制太阳何时爆炸。因此,我们的全部知识应考虑这些度量和数据点。
在贝叶斯分析中,这是通过使用这些度量构建先验来完成的(尽管将度量转换为先验的过程的定义不明确:在某些时候必须有一个初始先验,否则“将全部弄乱了”)下降”)。因此,当贝叶斯人使用他的先验知识时,他实际上是在考虑很多其他信息,这些信息不是常客的p值分析所不具备的。
因此,为了保持平等,对问题进行全面的频度分析应包括与用于构造贝叶斯先验的太阳爆炸相同的其他数据。但是,代替使用先验,常客只会简单地扩大他用来合并其他度量的可能性,并且将使用该完全可能性来计算其p值。
(机器说是|太阳爆炸了)* L(关于太阳的所有其他数据|太阳爆炸了)
全面的频繁主义者分析很可能表明,可能性的第二部分将受到更大的约束,并且将成为p值计算的主要贡献(因为我们拥有大量有关太阳的信息以及该信息的错误很小(希望如此))。
实际上,人们不必走出去收集过去500年中获得的所有数据点来进行频繁计算,就可以将它们近似为一种简单的似然项,该项编码关于太阳是否爆炸的不确定性。然后,这将与贝叶斯先验相似,但是在哲学上稍有不同,因为它是可能的,这意味着它编码了一些先前的度量(而不是先验,后者编码了先验的信念)。与贝叶斯先验相反,该新项将成为可能性的一部分,并将用于建立置信区间(或p值或其他值),而贝叶斯先验则被积分形成可信区间或后验。
我看到的最大问题是没有派生测试统计信息。 -值(与所有的批评贝叶斯统计人员发动针对它)为一个值吨检验统计量的Ť被定义为P [R ö b [ Ť ≥ 吨| ħ 0 ](假定零被拒绝的更大值Ť,如将与的情况下χ 2统计数据)。如果您需要做出更重要的决定,则可以增加临界值,并将拒绝区域进一步推高。实际上,这就是Bonferroni等多项测试更正所做的,它指示您对值使用低得多的阈值。相反,频率论统计学家这里套牢尺寸上的网格测试0 ,1 / 36 ,2 / 36 ,...。
当然,这种“频率主义”方法是不科学的,因为结果将难以再现。太阳一旦变成超新星,它将保持超新星状态,因此探测器应不断重复说“是”。但是,重复运行此机器不太可能再次产生“是”结果。这在想要表现出自己的严谨并试图重现其实验结果的领域中得到认可……据我所知,发生的可能性在5%(出版原始论文是纯粹的I类错误)和在某些医疗领域中大约占30-40%。荟萃分析人员可以为您提供更好的数据,这只是统计葡萄藤上不时传来的嗡嗡声。
从“适当的”常客角度来看,另一个问题是,滚动模具是最不强大的测试,功效=显着性水平(如果不降低,则5%显着性水平只有2.7%的显着能力)。Neyman-Pearson的t检验理论对证明这是UMPT感到很痛苦,并且许多高额眉头统计理论(我几乎不了解,我必须承认)致力于推导幂曲线并在给定给定值时找到条件测试是给定班级中最强大的测试。(来源:@Dikran Marsupial在评论之一中提到了权力问题。)
我不知道这是否会困扰您,但贝叶斯统计学家在这里显示为不懂数学却有赌博问题的人。合适的贝叶斯统计学家会假设先验,讨论其客观程度,得出后验,并证明他们从数据中学到了多少。这些都没有完成,因此贝叶斯过程被简化得和常客主义一样简单。
这种情况证明了对癌症问题的经典筛查(我相信生物统计学家可以比我更好地描述它)。当使用不完善的仪器筛查罕见疾病时,大多数阳性结果都是假阳性。精明的统计学家知道这一点,并且更了解通过廉价,肮脏的筛查器进行更昂贵,更准确的活检。
这部漫画没有错,原因与统计无关。这是经济学。如果常客是正确的,那么地球将在48小时内变得无人居住。$ 50 的值实际上为空。贝叶斯意识到这一点,就可以打赌,知道他的收益在正常情况下是50 美元,而在阳光暴晒的情况下几乎没有。
现在CERN决定中微子的速度不比光快-电磁辐射激波锋线会在注意到中微子变化之前撞击地球。至少(在短期内)这将产生惊人的极光效果。因此,黑暗的事实并不能防止天空被照亮。人造卫星被汽化并自燃时,月球将发出明亮的光芒(参见拉里·尼文(Larry Niven)的“不变的月亮”)和壮观的闪光。
总而言之-也许测试错了?(虽然可能有事前通知-没有足够的时间来实际确定后验。
在所有详细答案中可能会遗漏的一个更简单的观点是,描绘了常客是根据单个样本得出结论的。实际上,您永远不会这样做。
得出有效的结论需要统计上有意义的样本量(换句话说,科学需要是可重复的)。因此,在实践中,常客会多次运行机器,然后得出有关结果数据的结论。
据推测,这将需要多次向机器询问相同的问题。并且,假设机器每36次故障仅一次,就会出现清晰的图案。从这种模式(而不是一次阅读),常客会得出一个关于太阳是否爆炸的结论(相当准确,我会说)。
您的问题的答案是:“他是否正确地采用了频率论方法?” 是的,他没有精确地采用常客主义方法。此问题的p值不完全是1/36。
我们首先必须注意,涉及的假设是
H0:太阳还没有爆炸,
H1:太阳爆炸了。
然后,
p值= P(“机器返回是” |太阳尚未爆炸)。
为了计算这种可能性,我们必须注意,“机器返回是”等同于“中微子探测器测量到太阳爆炸并告诉真实结果,或者中微子探测器没有测量到太阳爆炸并向我们说谎”。
假设掷骰子与中微子探测器的测量值无关,我们可以通过定义以下内容来计算p值:
p0 = P(“中微子探测器测量太阳爆炸” |太阳尚未爆炸),
然后,p值为
p值= p0 x 35/36 +(1-p0)x 1/36 =(1/36)x(1+ 34 x p0)。
对于此问题,p值是1/36到35/36之间的数字。当且仅当p0 = 0时,p值等于1/36。也就是说,此卡通中的一个隐藏假设是,如果太阳未爆炸,探测器将永远不会测量太阳爆炸。
此外,关于外星爆炸发生的外部证据的可能性,应该插入更多的信息。
祝一切顺利。
我认为常客的方法没有任何问题。如果否定原假设被拒绝,则p值是类型1错误的概率。类型1错误拒绝了真实的零假设。在这种情况下,我们的p值为0.028。这意味着在曾经进行过该p值的所有假设检验中,每100个样本中大约有3个将拒绝真实的零假设。通过构造,这将是其中一种情况。经常有人接受,有时他们会拒绝真实的零假设或保留错误的零假设(类型2错误),但他们从未主张过。而且,从长远来看,它们可以精确地量化错误推断的频率。
也许,比较不那么混乱的看待结果的方法是交换假设的作用。由于两个假设很简单,所以这很容易做到。如果零是太阳变新星,则p值为35/36 = 0.972。这意味着没有证据反对太阳变新的假设,因此我们不能根据这一结果拒绝它。这似乎更合理。如果你在想。为什么有人会假设太阳变新星了?我问你。如果突然想到太阳爆炸,为什么有人会进行这样的实验呢?
我认为这只是表明必须事先评估实验的有效性。例如,该实验将完全无用,因为它仅通过仰望天空即可测试我们已经知道的东西(我确定产生的p值实际上为零)。设计好的实验是产生好的科学的要求。如果您的实验设计不当,那么无论您使用哪种统计推断工具,您的结果都不太可能有用。
如何将有关太阳稳定性的“先验知识”整合到频率论方法中?
非常有趣的话题。
这只是一些想法,而不是完美的分析...
将贝叶斯方法与非信息先验一起使用通常可以提供与常客相比可比的统计推断。
为什么贝叶斯先验者坚信太阳没有爆炸?因为他每个人都知道太阳从开始就从未爆炸过。
我们可以在一些具有共轭先验的简单统计模型上看到,使用先验分布等效于使用从非信息性先验和初步实验得出的后验分布。
上面的句子表明,常客应该通过将初步实验的结果纳入其模型来得出贝叶斯结论。这就是贝叶斯的实际作用:他的先验来自对初步实验的了解!
在我看来,更正确的频率分析如下:H0:太阳爆炸了,机器正在说真话。H1:太阳没有爆炸,机器在撒谎。
此处的p值为= P(太阳分解)。p(机器说的是实话)= 0.97。P(太阳爆炸了)
在不知道第二种可能性的本质的情况下,统计学家无法得出任何结论。
尽管我们知道P(太阳爆炸)为0,因为像恒星一样的太阳不会爆炸成超新星。