数据“探索”与数据“监听” /“拷打”?
很多时候,我都遇到过非正式的警告,反对“数据监听”(这是一个有趣的例子),我认为我对这意味着什么以及为什么可能是一个问题有一个直观的认识。 另一方面,“探索性数据分析”似乎是统计学中一个非常受人尊敬的程序,至少从以下事实来看:具有该名称的书仍被经典地引用。 在我的工作中,我经常遇到看起来像猖like的“数据监听”,或者将其更好地描述为“数据折磨 ”,尽管这样做的人似乎将同一活动视为完全合理且毫无问题的“探索” ”。 这是典型的场景:进行了代价高昂的实验(对后续分析没有过多考虑),原始研究人员无法轻易辨别所收集数据中的“故事”,有人被邀请使用一些“统计巫术”,以及,在以各种方式对数据进行切片和切块之后,最终设法从中提取出一些可发布的“故事”。 当然,最终报告/论文中通常会抛出一些“验证”,以表明统计分析是不断进行的,但其背后公然的不惜一切代价发表的态度让我感到怀疑。 不幸的是,由于我对数据分析可做与不可做的有限理解,使我无法摆脱如此模糊的疑问,因此我的保守回应是基本上不理会这些发现。 我的希望是,不仅可以更好地理解探索与侦听/拷打之间的区别,而且更重要的是,更好地掌握检测越界线的原理和技术,将使我能够评估这些发现。这种方法可以合理地解释一个不太理想的分析过程,因此可以超越我目前对笼统怀疑的相当简单的想法。 编辑:谢谢大家非常有趣的评论和答案。从他们的内容来看,我认为我可能还没有很好地解释我的问题。我希望此更新可以澄清问题。 我在这里的问题不是那么重要,我应该怎么做才能避免折磨我的数据(尽管这也是一个令我感兴趣的问题),而是:我应该如何看待(或评估)我通过事实得出的结果这样的“数据折磨”。 在那些(非常罕见)的情况下,情况变得更加有趣,此外,在这些情况下,我还可以发表意见,然后再将其提交发表。 在这一点上,我最多只能说些类似的话:“鉴于我对获得这些假设和程序的了解,我不知道可以对这些发现给予多大的信任。” 这太模糊了,甚至不值得一说。 想要超越这种模糊性是我发帖的动机。 公平地说,我在这里的怀疑不仅仅基于看似有问题的统计方法。实际上,我认为后者更多是由更深层次的问题引起的:结合了对实验设计的勇敢态度以及对公布结果的坚定承诺(即无需任何进一步的实验)。当然,后续项目总是可以预见的,但是毫无疑问的是,不会从“装满100,000个样品的冰箱”中取出一张纸。 统计数据只是实现此最高目标的一种手段。锁定统计数据的唯一理由(在整个场景中是次要的)是,假设“不惜一切代价出版”的正面挑战根本没有意义。 实际上,在这种情况下,我只能想到一种有效的响应:提出一些统计测试(不需要额外的实验)来真正测试分析的质量。但是我只是没有统计数据。我的希望(回想起来很幼稚)是找出我可以研究的东西,使我能够进行此类测试。 在我撰写本文时,我突然意识到,如果不存在这样的数据,世界可以使用一个新的统计子分支,专门用于检测和公开“数据酷刑”的技术。(当然,我并不是说被“酷刑”隐喻迷住了:问题不是本质上的“数据酷刑”,而是它可能导致的虚假“发现”。)