钓鱼远征的问题是:如果您测试了足够多的假设,则其中一个假设的p值将较低。让我举一个具体的例子。
假设您正在进行流行病学研究。您已经找到1000名患有罕见病的患者。您想知道它们的共同点。因此,您开始测试-您想查看此示例中是否过度代表了特定特征。最初,您要检查性别,种族,某些相关的家族史(父亲在50岁之前死于心脏病,…),但最终,由于您找不到任何“粘住”的东西,因此您开始添加各种其他因素,可能与疾病有关:
- 是素食主义者
- 已经去了加拿大
- 完成大学
- 结婚了
- 有孩子
- 有猫
- 有狗
- 每周至少喝5杯红酒
……
现在这是事情。如果我选择了足够的“随机”假设,那么至少有一个假设会导致ap值小于0.05-因为p值的本质是“在存在以下情况时拒绝零假设的错误概率没有效果”。换句话说,平均来说,对于您测试的每20个虚假假设,其中之一将给您ap <0.05。
XKCD卡通http://xkcd.com/882/中对此进行了很好的总结:
悲剧是,即使单个作者不对样本进行20种不同的假设检验以寻找意义,也可能会有19名其他作者在做同样的事情。现在,“发现”相关性的人有一篇有趣的论文要写,而且有可能被出版。
不幸的是,这导致无法再现的发现。作为个人作者,防止这种情况的最好方法是将标准设置得更高。而不是测试单个因素,而是问自己“如果我测试N个假设,至少出现一个假阳性的概率是多少”。当您真正测试“钓鱼假说”时,您可能会考虑进行Bonferroni更正以防止这种情况发生-但是人们经常不这样做。
Ioannides博士发表了一些有趣的论文- 在《大西洋月刊》上专门介绍了该主题。
另请参阅此早期问题以及一些有见地的答案。
更新以更好地回答您问题的所有方面:
如果您担心自己可能正在“钓鱼”,但是您真的不知道该假说采用什么假设,则可以肯定地将数据划分为“探索”,“复制”和“确认”部分。原则上,这应该限制您承受前面概述的风险:如果勘探数据中的ap值为0.05,并且复制和确认数据中的ap值为相似,则出错的风险就会降低。“正确做事”的一个很好的例子在《英国医学杂志》上有报道(影响力非常大的出版物,影响因子为17+)
探索和确认与未产妇无并发症妊娠相关的因素:前瞻性队列研究,Chappell 等
这是相关的段落:
我们将5628名妇女的数据集分为三个部分:来自澳大利亚和新西兰的三分之二的妇女的探索数据集,随机选择(n = 2129);来自澳大利亚和新西兰的其余三分之一妇女的本地复制数据集(n = 1067);以及来自英国和爱尔兰共和国的2432名欧洲女性的外部,地理上不同的确认数据集。
回顾一下文献,Altman等人发表了一篇很好的论文,题为《预后和预后研究:验证预后模型》,它深入了很多,并提出了确保不陷入困境的方法。这个错误。该文章的“要点”:
未经验证的模型不得用于临床实践验证预后模型时,应评估校准和歧视性验证时应使用与用于开发模型的数据不同的数据(最好是来自其他中心的患者)进行验证模型在实践中可能无法很好地发挥作用由于开发方法的缺陷或由于新样本与原始样本有太大差异
特别要注意的是,建议对其他来源的数据进行验证(即释义)-即仅将数据任意分割为子集是不够的,但是您应该做的是证明一组的“学习”结果可以将一组实验应用于来自不同实验集的数据。这是一个更高的标准,但是它进一步降低了设置中的系统偏差会导致无法独立验证的“结果”的风险。
这是非常重要的主题-感谢您提出问题!