德州神枪手在探索性数据分析中的谬误


23

我在《自然》杂志上读过这篇文章,其中在数据分析的背景下解释了一些谬误。我注意到德州神枪手的谬误特别难以避免:

德州神枪手的寓言说明了在数据分析过程中等待的认知陷阱:一个无能的射手,他在谷仓侧面发射随机的子弹图案,围绕最大的子弹孔绘制目标,并自豪地指向他的成功。

他的靶心显然是可笑的-但对于那些在连胜的过程中相信“一手好牌”的赌徒,或者在所有奇数都出现彩票时看到超自然意义的人来说,谬论并不那么明显。

对于研究人员来说也不总是很明显。“您只是从数据中得到一些鼓励,然后思考,这是走下坡路,” Pashler说。“您没有意识到自己有27种不同的选择,而是选择了一个给您最满意或最有趣的结果的选择,现在您从事的并不是完全无偏的数据表示。

我认为这种探索工作是司空见惯的,而且通常是在那部分分析的基础上建立假设的。有一个专用于此过程的整体方法(EDA):

约翰·图基(John Tukey)倡导探索性数据分析,以鼓励统计学家探索数据,并可能提出可能导致新数据收集和实验的假设

似乎在没有事先假设的情况下执行的任何探索性过程都容易产生虚假假设。

请注意,上面对EDA的描述实际上是在谈论new data collection and experiments。我了解到,在收集了新数据之后,就需要进行验证性数据分析(CDA)。但是,我认为这种区分并不十分清楚,尽管将EDA和CDA分开是理想的,但是肯定在某些情况下这是不可行的。我要说的是,严格遵循这种分离并不常见,而且大多数从业人员根本不赞成EDA范式。

所以我的问题是:EDA(或任何非正式的数据浏览过程)是否会使德州神枪手的谬误更有可能崩溃?


3
我不清楚您所说的“虚假假设”是什么意思。探索性数据分析的精神是查看数据,并接受各种模式,包括您没有想到的模式。不多,也不多。探索性数据分析中的任何内容都不能保证好主意,也不能排除或排除批判性思维或将您所做的工作与基础科学联系在一起(广义)。因此,这里有批评EDA的风险,因为没人经历过。或没有人支持。
尼克·考克斯

3
在EDA中最难学习和教导的是(在最乐观的情况下)准确的测试应该对哪些意义有所帮助:养成不要过度解释数据中那些不够重要而不值得引起注意的细节的习惯。 。我认为,许多EDA帐户并没有足够努力地提出一种想法,即必须认真对待一种模式,该模式必须在不同的数据集中是可识别的,但是这种忽视在整个统计科学中都是常见的。
尼克·考克斯

1
谢谢。问题在于,生成许多假设并在同一数据集中对其进行检验真的很危险,因为即使它们是错误的,您也可能会确认其中之一。正如Creosote所描述的,将需要校正p值。不幸的是,我从未见过这样的实践。
罗伯·史密斯

2
从1980年代初期学习(法国)EDA,我得到的印象是,将您的分析转向预期的结论实际上要比采用更强大的统计结构容易得多……
西安,

Answers:


12

如果人们严格地将EDA的作用视为产生假设,那么没有任何神枪手谬论不适用。但是,非常重要的是,以后的确证试验确实是独立的。许多研究人员试图通过汇总分析,荟萃分析和贝叶斯方法来“调和差异”。这意味着在这种分析中提供的至少一些证据包括“随机弹孔周围的圆圈”。


5
究竟。探索性数据分析过多的问题在于,同一组训练(用于识别子弹落在何处)和测试(在其周围绘制圆圈)都用于同一组。
Michael K

11

这描绘了探索性数据分析的非常负面的观点。尽管论点没有错,但实际上是在说:“当我以错误的方式使用非常重要的工具时,会出什么问题?”

从EDA方法接受未经调整的p值将导致I型错误率大大提高。但是我认为Tukey不会对任何这样做的人感到满意。EDA的目的不是要对数据中的关系做出确定的结论,而是要寻找数据中潜在的新颖关系来进行跟踪。

在更大的科学过程中遗漏这一步骤实质上是在限制科学,使人们永远无法在纯逻辑推论之外找到我们数据的新的有趣方面。是否曾经尝试从逻辑上推断出一组基因的过度表达将如何影响细胞的存活?提示:这并不是一件容易的事(我们工作中生物信息学人员中最喜欢的一个笑话是当物理学家问“为什么不只是模拟不同基因相互作用的物理特性?这是一个有限的参数空间”)。

我个人认为,对此的困惑会导致科学进步大大放缓。我知道有太多的非统计研究人员会声明他们不想对原始数据进行EDA程序,因为他们“知道EDA可能很糟糕”。

总之,使用EDA方法并将其视为验证性数据分析方法绝对会导致无效结果,这是绝对正确的。但是,缺少正确使用EDA几乎不会导致任何结果。


谢谢。我不会担心很少有人从事某种探索性分析。我认为情况恰恰相反。许多人都在进行这项探索性工作,但可能没有采取足够的预防措施来防止您所描述的I型错误。但是,有趣的是,您认识对EDA持负面看法的人。如果他们不想在初步数据中进行此操作,那么他们何时感到对进行EDA(或类似EDA)的工作感到满意?
罗伯·史密斯

我的经验是,非统计研究人员习惯于听到“多重比较是有问题的”,因此,当他们来找我数据时,他们急于说他们想避免进行多重比较,即使是初步数据也是如此。当然,对问题的更完整理解是您希望避免在CDA研究中进行多次比较。
悬崖AB

我明白。这更有意义。
罗伯·史密斯

5

似乎在没有事先假设的情况下执行的任何探索性过程都容易产生虚假假设。

我会对此陈述加以修饰,并以不同的方式表达它:如果一个假设未使用正确的原假设,那么根据数据选择一种假设进行检验会破坏该检验。本质上,《自然》(Nature)文章的重点是,分析师很容易使自己无视他们在探索过程中隐式进行的所有比较。

自然引述安德鲁·盖尔曼,但没有提到他的论文与埃里克·洛肯大约只是这个话题。摘录:

当对我们在这里讨论的某些论文提出多种比较的批评时,研究人员永远不会回应,他们提前选择了其数据处理和数据分析的所有细节。相反,他们声称他们只对看到特定数据进行了一项分析。尽管这种辩护看起来很直观,但它没有解决多重比较的基本常客性问题。

另一个:

研究人员并不是进行了数百次不同的比较,而是选择了具有统计学意义的比较。相反,他们从脑海中思考要执行什么比较的想法开始,然后根据数据完善该想法。他们看到了红色和粉红色的图案,并且将颜色组合在一起。

简洁地说:

从科学假设到统计假设都有一对多的映射。

还有,重点是:

在我们讨论过的所有情况下,已发表的分析都有一个与推动这项工作的科学假设相一致的故事,但是其他数据模式(在样本量大的情况下,很容易偶然发生)自然会导致同样可以用来支持研究假设的不同数据分析(例如,关注主要影响而不是相互作用,或者选择不同的数据子集进行比较)。正如我们在其他地方所写的那样,结果仍然是一种用于生成和发布随机模式的机器。

简而言之,并不是EDA会导致“虚假假设”;就是用相同的数据集测试假设,从而促使假设得出虚假结论。

如果你有兴趣克服这种障碍,吉尔曼有另一个纸张认为许多这些问题在贝叶斯框架消失,并与洛肯引用“出版前复制”中的第一部分描述闲谈的纸本文件


谢谢。很有意思。我将看一下Gelman关于多重比较的论文。
罗伯·史密斯

3

几乎按照定义,是的,当然,没有CDA的EDA吸引了得克萨斯州的神枪手。

pp


谢谢。是的,将需要进行更正。我不认为这很普遍。
罗伯·史密斯

3

只是增加了已经很不错的答案:完整的CDA与仅以面值接受EDA结果之间存在中间立场。一旦找到了可能感兴趣的特征(或假设),就可以通过执行交叉验证(CV)或自举仿真来了解其健壮性。如果您的发现仅取决于一些关键的观察结果,那么CV或Bootstrap将显示许多褶皱(CV)或boostrap样品无法重现观察到的特征。

这不是万无一失的方法,但在进行完整的CDA(或有意从初始数据池中保留“验证集”)之前,它是很好的中间检查。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.