常客对电压表的看法是什么?


15

常客对电压表的故事及其变化有何看法?其背后的想法是,如果后来获悉那些假设事件不可能像假设的那样发生,那么必须对吸引假设事件的统计分析进行修订。

维基百科上的故事的版本如下。

工程师抽取电子管的随机样本并测量其电压。测量范围为75至99伏。统计员计算样本均值和真实均值的置信区间。后来统计学家发现电压表的读数只能读到100,因此人口似乎被“审查了”。如果统计学家是正统的,这就需要进行新的分析。但是,工程师说,他还有另一个读到1000伏特的电表,如果电压超过100伏,他会使用该电表。这对统计学家来说是一件轻松的事,因为这意味着人口实际上是未经审查的。但是,第二天,工程师通知统计人员该第二个仪表在测量时没有工作。统计人员确定工程师在仪表固定好之前不会暂停测量,并告知他需要新的测量。工程师大为震惊。“接下来,您会问我的示波器”。

这个故事显然是愚蠢的,但我不清楚用它取笑的方法会带来什么自由。我敢肯定,在这种情况下,繁忙的应用统计学家不会为此担心,但是铁杆学术常客呢?

使用教条常识性方法,我们是否需要重复实验?我们能否从现有数据中得出任何结论?

为了解决故事中提出的更笼统的观点,如果我们想利用已经拥有的数据,是否可以对假设结果进行必要的修改以适应常人主义框架?


4
经常采用的方法还可以进行条件调整,因此我不确定报价中的推理是否充分。
西安

@西安即使在我们的计算中包含了对样本的检查或第二个电压表被破坏的可能性,也存在一个问题,那就是我们要在实验设计发生后对其进行更改。我不知道这是否可以和经常性方法调和。
Praxeolitic 2015年

6
也许根据条件原则检查该条目。尽管不是常客,但我不是这个故事的忠实拥护者,因为它似乎暗示着将所有可能的假设事件整合在一起,而没有定义那些事件的范围。这是相当讽刺的。
西安

5
这确实值得深思熟虑的讨论和答案。但是请注意,“如果统计学家是正统的,并且对自己的工作没有能力或贪婪程度,她会说,由于没有对原始意见进行审查,因此,她对程序的最初选择(大概是可以接受的)仍然可以接受,因此没有依据更改。决定“频率论”统计的理论基础-决策理论-对于这种“可能性原理”没有用处。
ub

1
如果有足够的数据,我知道该怎么办。我会做一个直方图。我会看直方图。如果在99时有一个清晰的界线,则在该点上制作了一个单边截断的直方图,我怀疑它被截断了。我还将查看已知不会被截断的数据,并检查它们的曲线形状,看看是否可以得到一个适合该概率的模型,例如,伽马分布,否则不行。然后,我将返回到截断的数据(通过假设),并查看其余数据是否也是伽马分布的(或其他)。然后我需要解释,“为什么要使用伽玛?” 如果是这样,我就完成了。
卡尔

Answers:


4

常推论中,我们想确定如果重复实现给定的随机过程,某件事会发生的频率。这是p值,置信区间等理论的起点。但是,在许多应用项目中,并没有真正给出“给定”的过程,统计学家至少需要做一些工作来指定和建模它。在这种情况下,这可能是一个令人惊讶的模棱两可的问题。

建模数据生成过程

根据给出的信息,我们最好的候选人似乎是:

  1. 如果100V仪表读数为100V,则工程师可以使用1000V仪表重新测量否则,他仅标记100V并继续前进。

但这对我们的工程师不公平吗?假设他是一名工程师,而不仅仅是一名技术人员,他可能理解为什么当第一个电表的读数为100V时他需要重新测量。这是因为电表在其范围的上限处饱和,因此不再可靠。所以也许工程师真正会做的是

  1. 如果100V仪表读数为100,则工程师可以使用1000V仪表重新测量否则,他只需标记100V,然后加上一个加号以指示饱和测量,然后继续。

这两个过程都与我们拥有的数据一致,但是它们是不同的过程,并且它们产生不同的置信区间。流程2是我们希望作为统计学家的流程。如果电压通常远高于100V,则过程1可能会发生灾难性故障,在这种情况下,有时会严重低估测量值,因为我们在不知情的情况下检查了数据。置信区间将相应扩大。我们可以通过要求工程师告诉我们他的1000V仪表何时不工作来缓解这种情况,但这实际上只是确保我们的数据符合流程2的另一种方式。

如果马匹已经离开谷仓,并且我们无法确定何时对测量值进行检查和不进行检查,则可以尝试从数据中推断1000V仪表不工作的时间。通过在流程中引入一个推理规则,我们可以有效地创建一个不同于1和2的新流程1.5。我们的推理规则有时会起作用,有时则不起作用,因此与流程1和2相比,来自流程1.5的置信区间在中间2。

从理论上讲,对于具有三个不同置信区间并与三个不同的可能具有代表性的随机过程相关联的单个统计数据,没有任何错误或怀疑。实际上,很少有统计消费者希望使用三个不同的置信区间。他们想要一个,这个基于实际发生的事情,如果实验重复了很多次。因此,通常情况下,应用统计学家会考虑她在项目中获得的领域知识,进行有根据的猜测,并提出与她所猜测的过程相关的置信区间。或者她与客户合作以使流程正式化,因此无需猜测下一步。

如何应对新信息

尽管故事中坚持了统计学家的观点,但是当我们获得新的信息时,经常性的推理并不需要我们重复测量,这表明生成随机过程并不像我们最初想象的那样。但是,如果要重复该过程,我们确实需要确保所有重复与置信区间假设的模型过程一致。我们可以通过更改流程或更改其模型来做到这一点。

如果我们更改流程,则可能需要丢弃与该流程不一致收集的过去数据。但这不是问题,因为我们正在考虑的所有过程变化仅在某些数据高于100V时才有所不同,这种情况下从未发生过。

无论我们做什么,都必须使模型与现实保持一致。只有这样,理论上保证的惯常错误率才是客户在重复执行该过程后实际得到的结果。

贝叶斯替代

另一方面,如果我们真正关心的只是样本的真实均值的可能范围,则我们应该完全抛弃频繁性,寻找能够解决该问题的人-贝叶斯主义者。如果我们走这条路,所有与事实相反的讨价还价就变得无关紧要了。重要的是先验和可能性。作为这种简化的交换,我们在重复执行“实验”的过程中失去了保证错误率的希望。

为什么大惊小怪?

这个故事的目的是使它看起来像是常客统计学家无端地对愚蠢的事情大惊小怪。老实说,谁在乎这些愚蠢的反事实?答案当然是每个人都应该关心。具有重要意义的科学领域目前正遭受严重的复制危机,这表明错误发现的频率大大高于科学文献中的预期。造成这种危机的因素之一(尽管不是任何一种)p-hacking的兴起,这是研究人员研究模型的许多变体,控制不同的变量,直到它们变得有意义为止。

P-hacking在流行的科学媒体和博客圈中受到了广泛的谴责,但实际上很少有人了解p-hacking的问题和原因。与流行的统计意见相反,在建模过程之前,之中和之后查看数据都没有错。错误的是没有报告探索性分析及其对研究过程的影响。仅通过查看整个过程,我们甚至可以确定代表该过程的随机模型以及适合该模型的频率分析(如果有)。

声称某种频率分析是适当的,这是非常严肃的主张。提出这一主张意味着您将自己约束到所选随机过程的纪律上,这需要整个反事实系统来了解您在不同情况下会做的事情。您必须实际遵守该系统,才能向您申请常驻保证。很少有研究人员,特别是那些强调开放性探索的领域的研究人员,符合该系统的要求,并且不会严格报告偏差。这就是为什么我们现在面临复制危机。(一些受人尊敬的研究人员认为,这种期望是不现实的,我对此表示同情,但这超出了本文的范围。)

我们批评公开发表的论文似乎是不公平的,因为他们声称如果数据不同,他们会做些什么。但这就是频繁论者推理的(有点自相矛盾)性质:如果接受p值的概念,则必须尊重对在备用数据下进行的建模进行建模的合法性。(Gelman&Loken,2013年)

在相对简单和/或标准化的研究(例如临床试验)中,我们可以调整多项比较或顺序比较,并保持理论错误率;在更复杂和探索性的研究中,常人模型可能不适用,因为研究人员可能无法完全意识到所做出的所有决定,更不用说明确记录和呈现这些决定了。在这种情况下,研究人员应(1)对所做的事情诚实并预先承担;(2)提出带有强烈警告或根本没有警告的p值;(3)考虑提出其他证据,例如该假设的先前合理性或后续复制研究。


这看起来是一个很好的答案,但明天明天某个时候我需要在心理上加以消化。
Praxeolitic

通过陈述问题的描述,听起来好像工程师声称他一直在做您的选择2
Aksakal

也许吧,但他没有这么明确地说。当人们猜测别人在想什么而不是进行明确讨论时,可能会犯很大的错误。
保罗

在应用统计课程中,过分强调参数估计的形式形式。假设我们计划抛硬币,并记录正面的频率。进来,我们默认地假设实际分布是​​伯努利,p = q = 0.5。经过一千次翻转之后,我们通过将现实与理论/假设进行比较来问自己“这是一个公平的硬币的可能性”。但是在许多科学中,人们认为事物是正态分布的,然后使用t检验。但是,如果收益不按正态分布,那将毫无意义。
eSurfsnake

1

似乎存在逻辑上的谬误。不管1000伏表是否正常工作,工程师说:“如果读数超过100,我将使用另一个表。” 但是,如果不使用1000伏表,他怎么知道电压> 100?

我认为这个谜题不足以构成一个有用的哲学问题。实际上,我同意以下答案:正确的做法是制作直方图,看看它是否被截断了。

但是,无论如何,问题中没有任何内容可以解决重要的问题,例如:(1)已知(或可疑)读数分布是什么,为什么?有什么理由相信它们是正态分布的吗?(2)如果未回答该问题,那么如何估计置信区间?

为了达到极限,正在测量一些“电压”。假设电源电压不能超过100伏。没错,大概没有超过100伏的测量值,因此电表是无关紧要的。

在估计和诸如此类的问题上,还有更多的东西(就先验,约束等而言)比问题涵盖的更多。这与“蒙蒂·霍尔”悖论不同,后者既清晰又干净。


1
故事的目的是通过将这些解释扩展到荒谬的极端,来批评依赖于假设事件的概率解释。您提到的问题不重要。假设工程师会知道是否需要更改电压表(例如,看到读数为“ 100”),而统计学家则有理由使用他所使用的方法(例如,他恰好已经知道正态分布是良好的这些读数的模型)。
Praxeolitic
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.