是否可以更改假设以匹配观察到的数据(又称捕鱼探险)并避免I型错误增加?


32

众所周知,研究人员应该花时间观察和探索现有数据并进行研究,然后再形成假设,然后收集数据以检验该假设(指零假设重要性检验)。许多基础统计书籍警告说,假设必须先验形成,并且在数据收集后不能更改,否则该方法将无效。

我了解更改假设以适合观察到的数据存在问题的一个原因是,由于虚假数据而导致发生I类错误的可能性更大,但是我的问题是:这是唯一的原因,或者是否还有其他基本问题参加钓鱼探险?

作为一个额外的问题,是否有办法在不使自己暴露于潜在陷阱的情况下进行钓鱼?例如,如果您有足够的数据,是否可以从一半的数据生成假设,然后使用另一半进行检验?

更新

我很感激我对这个问题的兴趣,但是答案和评论主要针对的是我认为我作为背景信息确定的内容。我想知道是否还有其他原因导致它比伪造结果的可能性更高,并且是否有其他方法(例如先拆分数据)事后更改假设,但又避免了I类错误的增加。

我已经更新标题以希望反映出我的问题的重点。

谢谢,对不起您的困惑!


7
阅读此书
2014年

1
从已经说过的换一种观点来看:科学方法的本质是提出假设,然后试图对其进行伪造,因为它们可能成为理论(如果伪造失败)。进行一次钓鱼探险是找到值得在以后的实验中进行伪造的假设的有效方法,但是您永远也不会做出并尝试一次伪造一种假设。特别是,如果您愿意调整自己的假设,那么您就不再试图伪造它了。相反,当您进行调整时,您会伪造未调整的假设并形成新的假设。
Wrzlprmft 2014年

@jona,那是一篇很棒的论文。我已经读过Ioannidis和Schooler的论文,但是Simmons 等人 很好地说明了这个问题。
事后

1
我想知道您是否还会发现与您的问题相关的本文:stat.columbia.edu/~gelman/research/published/multiple2f.pdf。它不是完全在同一主题上,而是解决了它的一个方面。
2014年

1
数据可能会导致您更改假设...但是在这种情况下,您需要从头开始收集新数据以确认新假设。
keshlam

Answers:


54

当然,只要您承认这是一次钓鱼探险,就可以继续进行钓鱼探险。更好的名称是“探索性数据分析”。

一个更好的类比可能是朝目标射击:

您可以向目标射击并庆祝是否击中靶心。

您可以在没有目标的情况下射击以测试枪支的性能。

但是欺骗是要在墙上射击,然后在弹孔周围绘制目标。

避免某些问题的一种方法是在训练数据集中进行探索,然后在单独的“测试”数据集上进行测试。


13
彼得的答案很难改善。大量数据挖掘的不幸问题是作者缺乏对假设尚未完全预先指定的假设,即没有使用“探索性”一词。许多许多研究人员正在挖掘数据以获取可发表的论文,并且没有跟进任何验证尝试(这常常会使他们失望)。
弗兰克·哈雷尔

2
将弗兰克·哈雷尔(Frank Harrell)的评论进一步发展:探索一些数据并发布有趣的发现是合法的……作为有趣的,探索性的发现,有待复制/验证。缺点是:如果其他人确认了您的发现,他们很可能会获得荣耀;如果其他人没有确认您的结果,您会被虚假的关联所迷惑。如果你有很大的自我,那就不好了。更不用说您需要公开提供您的数据和程序,许多领域的许多从业人员都不会这样做。您应该跟进新数据,而不是继续前进。
韦恩

11
+1But it's cheating to shoot at a wall and then paint a target around the bullet hole.
WernerCD

3
@ post-hoc好,它不应该引起人们的注意,但它可能会引起注意。取决于谁的眼睛在眉毛下!
彼得·弗洛姆

2
德州神枪手谬误 ..
smci 2014年

25

钓鱼远征的问题是:如果您测试了足够多的假设,则其中一个假设的p值将较低。让我举一个具体的例子。

假设您正在进行流行病学研究。您已经找到1000名患有罕见病的患者。您想知道它们的共同点。因此,您开始测试-您想查看此示例中是否过度代表了特定特征。最初,您要检查性别,种族,某些相关的家族史(父亲在50岁之前死于心脏病,…),但最终,由于您找不到任何“粘住”的东西,因此您开始添加各种其他因素,可能与疾病有关:

  • 是素食主义者
  • 已经去了加拿大
  • 完成大学
  • 结婚了
  • 有孩子
  • 有猫
  • 有狗
  • 每周至少喝5杯红酒
    ……

现在这是事情。如果我选择了足够的“随机”假设,那么至少有一个假设会导致ap值小于0.05-因为p值的本质是“在存在以下情况时拒绝零假设的错误概率没有效果”。换句话说,平均来说,对于您测试的每20个虚假假设,其中之一将给您ap <0.05

XKCD卡通http://xkcd.com/882/中对此进行了很好的总结:

在此处输入图片说明

悲剧是,即使单个作者不对样本进行20种不同的假设检验以寻找意义,也可能会有19名其他作者在做同样的事情。现在,“发现”相关性的人有一篇有趣的论文要写,而且有可能被出版。

不幸的是,这导致无法再现的发现。作为个人作者,防止这种情况的最好方法是将标准设置得更高。而不是测试单个因素,而是问自己“如果我测试N个假设,至少出现一个假阳性的概率是多少”。当您真正测试“钓鱼假说”时,您可能会考虑进行Bonferroni更正以防止这种情况发生-但是人们经常不这样做。

Ioannides博士发表了一些有趣的论文- 在《大西洋月刊》上专门介绍了该主题。

另请参阅此早期问题以及一些有见地的答案。

更新以更好地回答您问题的所有方面:

如果您担心自己可能正在“钓鱼”,但是您真的不知道该假说采用什么假设,则可以肯定地将数据划分为“探索”,“复制”和“确认”部分。原则上,这应该限制您承受前面概述的风险:如果勘探数据中的ap值为0.05,并且复制和确认数据中的ap值为相似,则出错的风险就会降低。“正确做事”的一个很好的例子在《英国医学杂志》上有报道(影响力非常大的出版物,影响因子为17+)

探索和确认与未产妇无并发症妊娠相关的因素:前瞻性队列研究,Chappell

这是相关的段落:

我们将5628名妇女的数据集分为三个部分:来自澳大利亚和新西兰的三分之二的妇女的探索数据集,随机选择(n = 2129);来自澳大利亚和新西兰的其余三分之一妇女的本地复制数据集(n = 1067);以及来自英国和爱尔兰共和国的2432名欧洲女性的外部,地理上不同的确认数据集。

回顾一下文献,Altman等人发表了一篇很好的论文,题为《预后和预后研究:验证预后模型》,它深入了很多,并提出了确保不陷入困境的方法。这个错误。该文章的“要点”:

未经验证的模型不得用于临床实践验证预后模型时,应评估校准和歧视性验证时应使用与用于开发模型的数据不同的数据(最好是来自其他中心的患者)进行验证模型在实践中可能无法很好地发挥作用由于开发方法的缺陷或由于新样本与原始样本有太大差异

特别要注意的是,建议对其他来源的数据进行验证(即释义)-即仅将数据任意分割为子集是不够的,但是您应该做的是证明一组的“学习”结果可以将一组实验应用于来自不同实验集的数据。这是一个更高的标准,但是它进一步降低了设置中的系统偏差会导致无法独立验证的“结果”的风险。

这是非常重要的主题-感谢您提出问题!


7
这使我想到:xkcd.com/882
詹斯(Jens)

2
@jens-这比我给的解释更有说服力。谢谢您的链接。像往常一样- 鼠标悬停在卡通片上一点儿。
弗洛里斯2014年

约阿尼德斯(Ioannides)和Lehrer的文章就是把我带到这里的途径。您的示例类似于@jona提到的Simmons 等人的示例。这是解释类型I错误增加可能性的一种很好的方法,但是还有其他原因使它不好吗?
专案

1
数据挖掘通常存在的问题是,您可能会混淆“关联”与“因果关系”。通过首先提出一个合理的假设,然后确认它可以帮助解释这些观察结果,可以降低将两者混淆的风险。“大数据”通常采用另一种方式-他们的作案手法是“如果我分析足够的数据,我将看到过去保持不变并在将来继续保持不变的模式”。有时它起作用,有时却不起作用。统计数据永远不能取代思维和理解,只能是一种确认
弗洛里斯2014年

6
我认为主要问题不是相关性与因果关系。很容易进行糟糕的相关分析,只是发现关联没有重复。
弗兰克·哈雷尔

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.