实验设计中的陷阱:避免死实验


27

我无数次地引用了此报价:

在实验结束后咨询统计学家通常只是要求他进行验尸检查。他也许可以说实验是怎么死的。- 罗纳德·费舍尔(1938)

在我看来,这似乎有些冒昧。我所发现的唯一描述没有良好设计的实验是如何失败的例子就是缺乏控制或控制不力。例如,控制肥料施用但无法控制施用所需环境的实验。也许只有我一个人,但是快速浏览Wikipedia中有关Fisher的设计原理的部分似乎可以覆盖大多数基础知识。

作为统计学家,您多久会看到与实验相关的数据问题设计?它们是否总是与费舍尔提到的少数因素有关,还是与我们进行非统计培训的科学家应注意的其他严重陷阱有关?


4
频率:非常频繁。通常称这个实验为“死”是太过分了,但是我发现许多实验只要在设计上稍作改动就可以做得更好。
mark999

3
我看过一些。虽然它可能是放肆现在,请记住,当费舍尔说,你不能只看了维基百科。早期的比率可能更高。
Glen_b-恢复莫妮卡

4
很高兴您提出这一点。我也很好奇,也许是我第一次看到四倍的预选赛:“对我来说,这似乎有些冒昧。” :-)
rolando2

1
@ rolando2:恩,是费舍尔。他赢得了所有那些资格赛:D
naught101

5
从字面上看,我职业生涯中有成千上万个数据集(实际上,没有任何统计学家审查过的设计收集到这些数据集)。其中大多数是出于正式目的而收集的,例如满足监管要求。我想不起一个没有一些与设计有关的问题的人(尽管有时这些问题很小)。这并不是说数据集是无用的或“失效的”:而是在几乎所有情况下,我的任务是(继续进行医学类比)首先使数据集复苏,然后将其应用于可能的目的。
whuber

Answers:


14

我相信,费舍尔在他著名的名言中所表达的意思不仅仅是说“我们将为研究做一个完整的因子设计”或另一种设计方法。在计划实验时咨询统计学家意味着以一种智能的方式思考问题的各个方面,包括研究目标,相关的变量,如何收集它们,数据管理,陷阱,对实验进行情况的中间评估以及许多其他方面更多。通常,我发现重要的一点是,要亲眼目睹所提议的实验的各个方面,以真正理解困难所在。

我的经验主要来自医疗应用。我遇到的一些问题可以通过事先咨询统计学家来避免:

  • 当然,样本数量不足是该列表上的第一名。通常,以前的研究会获得数据,并且很容易给出所需样本量的合理估计。在这些情况下,唯一的办法通常是对数据进行纯粹的描述性分析,并承诺在论文中进行进一步的研究(在医生投入宝贵的时间后,通常不选择出版)。
  • 执行实验留给方便和机会,而不是设计。我当前正在处理的一个示例是随着时间的推移收集了度量。个体之间的测量时间,测量频率和监视期结束都存在很大差异。增加每个人的测量数量并确定测量日期和监视周期的结束本来是很少的额外工作(在这种情况下),这将对研究非常有益。
  • 对可能容易控制的有害因素的控制不佳。例如,有时在样品采集之日和之后进行测量,从而留下样品降解的可能性。
  • 数据管理不善,包括我个人最喜欢的:“由于机器的测量不准确,我在将数据放入计算机之前先对其进行了四舍五入”。通常,相关数据只是不被收集,事后不可能得到。

通常,研究的问题甚至可以追溯到研究的最初概念:

  • 有时收集数据时没有明确的目标,只是假设它会以某种方式有用。产生假设和“重要结果”留给统计学家。
  • 相反,相反:将数据刮擦在一起,目的是证明PI掌握了一个明确的观点,而不管数据和实际可以证明什么。这次,统计学家仅应将其重要性标记在预先写好的结论上,而不必面对数据对结论进行调整。

到目前为止,这主要听起来像是统计学家遭受损失,而当PI尝试提出数据所不支持的结论时,科学完整性可能受到损害(总是很有趣的讨论)。但是实验团队也会遭受痛苦,因为他们在实验阶段做了不必要的额外工作(而没有做必要的工作),并且事后需要花更多的时间与统计学家讨论,因为他们以前没有得到建议。当然,最终论文会更糟,结论更少(更多的“猜想”),并且可能不会成为PI想要的那本影响力很大的期刊。


关于第二点的第二点,我认为研究的正常理由是为了证明特定点而收集数据。
罗伯·琼斯

1
您当然是完全正确的。我那里太矮了。我要提到的是一个非常有决心证明一个点的PI和无法证明该点的劣质数据(通常是由于基本的设计问题)聚集在一起的情况。
罗伯·霍尔

12

两个词:样本量...必须进行功率分析。通过从一开始就在团队中聘请合格的统计学家,当您编写稿件或报告的结果和讨论部分时,您可能会避免很多麻烦。

对于主要研究者来说,在与统计学家进行咨询之前,从少于30名受试者的样本中期望“预测模型”或“因果关系”,因此通常会先收集数据。如果PI在收集数据之前咨询了统计学家,那么统计学家将能够在进行适当的分析后通知PI以收集更多的数据/对象或重组其分析计划/项目的目标。


1
我不同意“必须进行功率分析”。我认为很多人都夸大了功率分析的重要性。
mark999

3
@ mark999:虽然可以,但是它并没有否定在进行实验之前进行某种功率分析的重要性,我理解这是Matt的观点。
Scortchi-恢复莫妮卡

3
@ mark999:当然,它们可能有用。但是在什么情况下,您不建议在进行实验之前进行任何形式的功效分析(包括估计置信区间的预期宽度)?我只能想到(1)一项初步研究,您只对通过协议进行操作并大致估算误差感兴趣;&(2)由于某种原因而无法选择样本量的实验,功耗分析冗余。
Scortchi-恢复莫妮卡

2
@ mark999:我认为我们做到了。对于您的情况(B),我建议进行试点研究->功效分析->实验以检验假设或估计效果大小,这是一个不可言喻的计划。
Scortchi-恢复莫妮卡

3
即使您的样本量固定,我也看不出有任何理由将您的头埋在沙滩上并避免进行功效分析(对资源限制和无知的合理回应)。
安迪W

11

我想这取决于您对“设计”一词的严格解释。有时认为它是指完全随机化与随机化的块等,我认为我没有见过因此而死的研究。另外,正如其他人提到的那样,我怀疑“死亡”过强,但这取决于您对术语的理解。当然,我看过的研究“不重要”(研究人员随后并未尝试发表)。假设这些研究如果进行不同的研究(根据我会给出的明显建议)可能是“重要的”,因此被发表,可能被视为“死亡”。根据这个概念,@ RobHall和@MattReichenbach提出的电源问题非常简单,但是强大的功能不只是样本量,而且这些可能落入“设计”概念的宽松范围内。以下是几个示例:

  • 不收集/记录/不丢弃信息
    我从事的一项研究中,研究人员对某种特定特征是否与癌症有关感兴趣。他们从两条品系中获得了小鼠(即,遗传品系,这些小鼠因某些特性而被繁殖),其中一个品系比另一个品系具有更多的性状。但是,所讨论的特征即使实际上可以测量,也没有实际测量。这种情况类似于将连续变量二分或合并,从而降低了功耗。但是,即使结果“显着”,也比我们知道每只小鼠的性状的大小要少。

    同一标题下的另一种情况是不考虑并收集明显的协变量。

  • 问卷设计不佳
    我最近从事一项研究,该研究在两种情况下进行了患者满意度调查。但是,没有一个项目被反向评分。似乎大多数患者只是从列表中剔除并标记了所有5分(强烈同意),甚至可能没有阅读这些项目。还有其他一些问题,但这很明显。奇怪的是,负责这项研究的研究员告诉我,她的参加明确地鼓励她不要首先由统计学家审查该研究,即使我们可以免费和方便地进行此类咨询。


哇......与第一位的,什么自己衡量?似乎有点,很明显。还是他们事先得到了不同方面的特征不同的保证?第二个例子很酷,这是大多数人不会想到的一种随机方法。
naught101

5
它只是测试一种菌株与另一种。其中一条线确实确实具有较高的特征,但是存在一些重叠-分布不是完全分开的。
gung-恢复莫妮卡

我对第1点也有类似的经验:设置了微流控设备以识别特定类型的细胞。注入要识别的细胞和对照细胞的混合物,并获得用于识别的视频流+信号流。不幸的是,尽管视频流可以用作在给定时刻检测器上是否有一个单元的参考,但无法分辨该单元的实际类型,因此无法确定信号是正信号还是正信号。假阴性或无信号是真阴性还是假阳性...
cbeleites支持Monica

8

在类似问卷调查和心理实验的过程中,我已经看到了此类问题。

在一种情况下,整个实验必须归纳为一种学习经验。存在多个级别的问题,导致结果混乱,但结果似乎为该假设提供了一定的支持。最后,我能够帮助计划一个更严格的实验,该实验实际上具有足够的能力来拒绝该假设。

在另一种情况下,我接受了已经设计和执行的调查,并且存在多个问题,导致几个关注领域受到影响。例如,在一个关键区域,他们询问客户因事件到达而被拒之门外的次数。问题在于问题上没有时间范围,因此您无法分辨尝试参加4次但被拒绝4次的人与尝试参加40次但仅被拒绝4次的人之间的区别。

我不是训练有素的首都统计学家,但是如果他们事先来找我,我将能够帮助他们解决这些问题并获得更好的结果。在第一种情况下,它仍然令人失望,“对不起,您的假设似乎极不可能”,但它可以为他们省去第二次实验。在第二种情况下,它将为他们提供一些重要问题的答案,并使结果更加清晰。(他们的另一个问题是他们随时间推移对多个地点进行了调查,因此至少对某些人进行了多次调查,毫无疑问是“您是否在其他地方进行过此调查?”)

也许本质上不是统计问题,但是在这两种情况下,精明,受过良好教育的领域专家创建的工具都有缺陷,结果是一次死亡实验和一个截肢实验。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.