事后测试有什么问题?


15

我的统计教授这么说,我看过的所有书都说:事后测试是不科学的。您必须首先从理论中得出假设,然后再收集数据并进行分析。

但是我真的不明白问题是什么。

假设,我看到了不同颜色汽车的销售数据,并形成了这样的假设:从售出的不同颜色的汽车中,街上最大的汽车组应该是白色的。因此,有一天我坐在某个街道上,记下经过我的所有汽车的所有颜色。然后,我做一些测试,找到任何东西。

现在,假设我很无聊,有一天坐在某个街道上,记下经过我的所有汽车的所有颜色。由于我喜欢图表,因此我绘制了一个漂亮的直方图,发现白色汽车构成了最大的组。因此,我认为也许街上的大多数汽车都是白色的,并进行了一些测试。

事后检验的结果或结果解释与理论驱动的假设检验有何不同?为什么?

*事后测试的反义词是什么?


我想补充一点,我们关于宇宙的大部分知识(地球绕太阳运动)是事后根据观测推论得出的。

在我看来,在物理学上完全可以假设过去一千年来太阳在东方升起并不是偶然的。


2
问题在这里这里得到例证。
Scortchi-恢复莫妮卡

@Scortchi Hmm,谢谢,但是我能发现的是:“这将滥用统计检验,正如许多地方已经充分解释和说明的那样。” 其余的评论和答案似乎不是在解释事后测试的问题,而是一般的测试问题。

2
比较变形虫的答案(相当于您的第一种情况)和胡布的答案(相当于您的第二种情况)。
Scortchi-恢复莫妮卡

3
请注意,事后的对立是先验的。上面链接中@whuber的答案非常全面,但是您可以查找探索性数据分析与确认性数据分析。
彼得·弗洛姆

这是切向相关,但可能会感兴趣的人阅读了这个问题:andrewgelman.com/2014/12/20/...
shadowtalker

Answers:


12

“您知道,今晚最神奇的事情发生在我身上。我正在去演讲的路上来到这里,我是从停车场进来的。您不敢相信发生了什么。我看到了一辆有执照的汽车牌照ARW 357,您能想象吗?在该州数以百万计的车牌中,今晚我能看到那个特定牌照的机会有多大? 理查德·费曼

我觉得我无法解释这个问题的深入技术方面。但是,我认为其中许多可以简化为直觉。

在第一个设置中,您首先要假设一些假设,然后根据新数据进行验证(来自设计的实验)。研究销售数据可以使您进行精心设计的实验,在这里,您可以真正确定答案的强弱(统计功效,p值,样本量以及其他许多内容)。

在第二个设置中,首先是您对答案的强度没有任何决定。这是一个问题。第二个问题是,从用于测试的同一样本中提取假设将以非常无法控制的方式增加将随机模式解释为有价值信息的机会。您要做的是注意到一些事情(白色汽车的数量很多),并问自己这是否有意义。关键是您只选择了该样本上可见的显着事实,而忽略了其他假设。这样你就创造了有利做为某些假设条件,并且破坏了大多数先验统计检验的假设。

像您不知道该泄漏那样行事是不科学的,并且假装这是一个假设所有假设的实验。在这种情况下,使用事后分析来制定假设并设计一个全新的实验以对其进行检验是科学的。


但是,这不是专门针对假设(“有利”条件的最极端形式)进行的实验吗?

1
“赞成”实验的唯一一件事就是答案的牢固性。除其他外,它试图“不赞成”特定的假设。
rapaio 2014年

4

如果您先收集数据,然后根据这些数据构建理论,那么就有可能使故事适合您的观察结果。问题是我们人类非常擅长写故事。换句话说:任何只要故事复杂,就可以用故事“解释”数据。

这个过程提供了很好的轶事。但是,没有理由解释它和/或提供良好的预测。您需要为此设置并验证模型

xkcd指出,这种现象普遍存在于体育“解说”中

体育评论

与此相关的是pareidolia现象:看到不存在的模式。举例来说,请参阅人们在火星早期卫星图像中看到的“面孔”:

火星人的脸

另外,当您收集更多数据时,需要注意不要以任何更奇怪的方式来调整故事,以使其“继续”“解释”您的观察结果

选举先例


2

科学通过形成假说(这当然是工作动机的经验),使得基于这些假设的预测,然后测试它们。观察过去的事物,将其概括为理论,然后将过去本身视为一种自动验证理论的追溯实验,是否有意义?不,因为整个问题是您的理论概括性如何,而不是它过去是否曾经起作用过。这就是为什么测试数据提出的假设被认为是不好的科学。


1

您的教授和其他答案是正确的,事后分析存在问题。但是,您也说对很多事后科学分析都来自对事后分析。关键是,应优先选择设计合理的实验,事后分析应谨慎处理,并采用特殊工具以防止实际发现遗漏伪造的文物。维基百科有关错误发现率的文章可能提供对该问题的见解。

仅举几个例子:

  • 如果我们对全世界的牛群进行生物测定,我们可以得出结论,牛有两个鼻孔。实际上,这是事后分析,但是大多数生物学,火山学或历史都是以这种方式建立的。我们不否认牛有两个鼻孔这一事实的原因是支持它如此压倒性的证据。
  • 我们从给定的养牛场中去年出生的犊牛中获取数据。我们意识到,在满月下的每个星期二,超过50%的新生小牛都是雌性的-除了该国的公众假期或冬季的星期二。如果我们以前做出过这样的假设,即那种日子会产生更多的雌性犊牛,那么我们可以进行假设检验并接受(或拒绝)该假设。但是,如果考虑到这只是事后分析,则证据不足以拒绝虚假现象。

有一篇经常被引用的文章讽刺地驳斥了降落伞可用作传闻的所有证据 -这只是事后分析的一种特别糟糕的证据。

并使用斯蒂芬·科拉萨(Stephan Kolassa)的答案的一个很好的例子:可以将一些类似于火星上的面孔的黑点视为稀薄的东西,但不能复制莱昂纳多·达·芬奇(Leonardo Da Vinci)最细微的细节。


0

如果您没有一个理论来支持您的主张,那么即使您的主张得到了验证,它也可能是巧合,不能证明任何事情。例如,我发现当太阳升起时我会做便盆,并且在过去的10年中一直在做便盆-根据此数据,事后分析告诉我,我做便盆和朝阳之间存在联系,而存在仅仅是巧合。因为做便盆,太阳不会升起,反之亦然。

生活充满了巧合。理论支持的命题消除了这种巧合或伪关系。


如果我有一个理论并且结果符合那个理论,那可能也是巧合。这就是为什么理论不能被证实而只能被伪造的原因。实际上,早晨排便与太阳升起之间存在关系,因为太阳的运动决定了昼夜节律,进而影响排便。

0

这是您可能会发现有用的直觉。如果您无聊并数着汽车,您仍然必须记住,您看到的是某些随机过程的结果。特别是这些汽车可能是不同的颜色。

因此,如果您形成最频繁的颜色是白色的假设,可能是因为它实际上是白色,但也可能是最频繁的颜色是红色,但是在该特定实验中,最频繁的颜色是白色(这总是可能的)。

现在,如果您事后进行,您将测试白色是最常见的,并且鉴于数据表明非常假设,您可能会得出结论,白色是最常见的……至少,数据永远不会矛盾(事后)假设。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.