在常推论中,我们想确定如果重复实现给定的随机过程,某件事会发生的频率。这是p值,置信区间等理论的起点。但是,在许多应用项目中,并没有真正给出“给定”的过程,统计学家至少需要做一些工作来指定和建模它。在这种情况下,这可能是一个令人惊讶的模棱两可的问题。
建模数据生成过程
根据给出的信息,我们最好的候选人似乎是:
- 如果100V仪表读数为100V,则工程师可以使用1000V仪表重新测量。否则,他仅标记100V并继续前进。
但这对我们的工程师不公平吗?假设他是一名工程师,而不仅仅是一名技术人员,他可能理解为什么当第一个电表的读数为100V时他需要重新测量。这是因为电表在其范围的上限处饱和,因此不再可靠。所以也许工程师真正会做的是
- 如果100V仪表读数为100,则工程师可以使用1000V仪表重新测量。否则,他只需标记100V,然后加上一个加号以指示饱和测量,然后继续。
这两个过程都与我们拥有的数据一致,但是它们是不同的过程,并且它们产生不同的置信区间。流程2是我们希望作为统计学家的流程。如果电压通常远高于100V,则过程1可能会发生灾难性故障,在这种情况下,有时会严重低估测量值,因为我们在不知情的情况下检查了数据。置信区间将相应扩大。我们可以通过要求工程师告诉我们他的1000V仪表何时不工作来缓解这种情况,但这实际上只是确保我们的数据符合流程2的另一种方式。
如果马匹已经离开谷仓,并且我们无法确定何时对测量值进行检查和不进行检查,则可以尝试从数据中推断1000V仪表不工作的时间。通过在流程中引入一个推理规则,我们可以有效地创建一个不同于1和2的新流程1.5。我们的推理规则有时会起作用,有时则不起作用,因此与流程1和2相比,来自流程1.5的置信区间在中间2。
从理论上讲,对于具有三个不同置信区间并与三个不同的可能具有代表性的随机过程相关联的单个统计数据,没有任何错误或怀疑。实际上,很少有统计消费者希望使用三个不同的置信区间。他们想要一个,这个基于实际发生的事情,如果实验重复了很多次。因此,通常情况下,应用统计学家会考虑她在项目中获得的领域知识,进行有根据的猜测,并提出与她所猜测的过程相关的置信区间。或者她与客户合作以使流程正式化,因此无需猜测下一步。
如何应对新信息
尽管故事中坚持了统计学家的观点,但是当我们获得新的信息时,经常性的推理并不需要我们重复测量,这表明生成随机过程并不像我们最初想象的那样。但是,如果要重复该过程,我们确实需要确保所有重复与置信区间假设的模型过程一致。我们可以通过更改流程或更改其模型来做到这一点。
如果我们更改流程,则可能需要丢弃与该流程不一致收集的过去数据。但这不是问题,因为我们正在考虑的所有过程变化仅在某些数据高于100V时才有所不同,这种情况下从未发生过。
无论我们做什么,都必须使模型与现实保持一致。只有这样,理论上保证的惯常错误率才是客户在重复执行该过程后实际得到的结果。
贝叶斯替代
另一方面,如果我们真正关心的只是该样本的真实均值的可能范围,则我们应该完全抛弃频繁性,寻找能够解决该问题的人-贝叶斯主义者。如果我们走这条路,所有与事实相反的讨价还价就变得无关紧要了。重要的是先验和可能性。作为这种简化的交换,我们在重复执行“实验”的过程中失去了保证错误率的希望。
为什么大惊小怪?
这个故事的目的是使它看起来像是常客统计学家无端地对愚蠢的事情大惊小怪。老实说,谁在乎这些愚蠢的反事实?答案当然是每个人都应该关心。具有重要意义的科学领域目前正遭受严重的复制危机,这表明错误发现的频率大大高于科学文献中的预期。造成这种危机的因素之一(尽管不是任何一种)是p-hacking的兴起,这是研究人员研究模型的许多变体,控制不同的变量,直到它们变得有意义为止。
P-hacking在流行的科学媒体和博客圈中受到了广泛的谴责,但实际上很少有人了解p-hacking的问题和原因。与流行的统计意见相反,在建模过程之前,之中和之后查看数据都没有错。错误的是没有报告探索性分析及其对研究过程的影响。仅通过查看整个过程,我们甚至可以确定代表该过程的随机模型以及适合该模型的频率分析(如果有)。
声称某种频率分析是适当的,这是非常严肃的主张。提出这一主张意味着您将自己约束到所选随机过程的纪律上,这需要整个反事实系统来了解您在不同情况下会做的事情。您必须实际遵守该系统,才能向您申请常驻保证。很少有研究人员,特别是那些强调开放性探索的领域的研究人员,符合该系统的要求,并且不会严格报告偏差。这就是为什么我们现在面临复制危机。(一些受人尊敬的研究人员认为,这种期望是不现实的,我对此表示同情,但这超出了本文的范围。)
我们批评公开发表的论文似乎是不公平的,因为他们声称如果数据不同,他们会做些什么。但这就是频繁论者推理的(有点自相矛盾)性质:如果接受p值的概念,则必须尊重对在备用数据下进行的建模进行建模的合法性。(Gelman&Loken,2013年)
在相对简单和/或标准化的研究(例如临床试验)中,我们可以调整多项比较或顺序比较,并保持理论错误率;在更复杂和探索性的研究中,常人模型可能不适用,因为研究人员可能无法完全意识到所做出的所有决定,更不用说明确记录和呈现这些决定了。在这种情况下,研究人员应(1)对所做的事情诚实并预先承担;(2)提出带有强烈警告或根本没有警告的p值;(3)考虑提出其他证据,例如该假设的先前合理性或后续复制研究。