数据“探索”与数据“监听” /“拷打”?


30

很多时候,我都遇到过非正式的警告,反对“数据​​监听”(这是一个有趣的例子),我认为我对这意味着什么以及为什么可能是一个问题有一个直观的认识。

另一方面,“探索性数据分析”似乎是统计学中一个非常受人尊敬的程序,至少从以下事实来看:具有该名称的仍被经典地引用。

在我的工作中,我经常遇到看起来像猖like的“数据监听”,或者将其更好地描述为“数据折磨 ”,尽管这样做的人似乎将同一活动视为完全合理且毫无问题的“探索” ”。

这是典型的场景:进行了代价高昂的实验(对后续分析没有过多考虑),原始研究人员无法轻易辨别所收集数据中的“故事”,有人被邀请使用一些“统计巫术”,以及,在以各种方式对数据进行切片和切块之后,最终设法从中提取出一些可发布的“故事”。

当然,最终报告/论文中通常会抛出一些“验证”,以表明统计分析是不断进行的,但其背后公然的不惜一切代价发表的态度让我感到怀疑。

不幸的是,由于我对数据分析可做与不可做的有限理解,使我无法摆脱如此模糊的疑问,因此我的保守回应是基本上不理会这些发现。

我的希望是,不仅可以更好地理解探索与侦听/拷打之间的区别,而且更重要的是,更好地掌握检测越界线的原理和技术,将使我能够评估这些发现。这种方法可以合理地解释一个不太理想的分析过程,因此可以超越我目前对笼统怀疑的相当简单的想法。


编辑:谢谢大家非常有趣的评论和答案。从他们的内容来看,我认为我可能还没有很好地解释我的问题。我希望此更新可以澄清问题。

我在这里的问题不是那么重要,应该怎么做才能避免折磨我的数据(尽管这也是一个令我感兴趣的问题),而是:我应该如何看待(或评估)通过事实得出的结果这样的“数据折磨”。

在那些(非常罕见)的情况下,情况变得更加有趣,此外,在这些情况下,我还可以发表意见,然后再将其提交发表。

在这一点上,我最多只能说些类似的话:“鉴于我对获得这些假设和程序的了解,我不知道可以对这些发现给予多大的信任。” 这太模糊了,甚至不值得一说。 想要超越这种模糊性是我发帖的动机。

公平地说,我在这里的怀疑不仅仅基于看似有问题的统计方法。实际上,我认为后者更多是由更深层次的问题引起的:结合了对实验设计的勇敢态度以及对公布结果的坚定承诺(即无需任何进一步的实验)。当然,后续项目总是可以预见的,但是毫无疑问的是,不会从“装满100,000个样品的冰箱”中取出一张纸。

统计数据只是实现此最高目标的一种手段。锁定统计数据的唯一理由(在整个场景中是次要的)是,假设“不惜一切代价出版”的正面挑战根本没有意义。

实际上,在这种情况下,我只能想到一种有效的响应:提出一些统计测试(不需要额外的实验)来真正测试分析的质量。但是我只是没有统计数据。我的希望(回想起来很幼稚)是找出我可以研究的东西,使我能够进行此类测试。

在我撰写本文时,我突然意识到,如果不存在这样的数据,世界可以使用一个新的统计子分支,专门用于检测和公开“数据酷刑”的技术。(当然,我并不是说被“酷刑”隐喻迷住了:问题不是本质上的“数据酷刑”,而是它可能导致的虚假“发现”。)


1
@BabakP引号出现在此处的六个答案中,包括统计信息笑话和统计信息引用线程中。(如果您正在寻找一些报价,后者是相关报价的一个很好的来源。)
whuber

7
我认为“数据侦听”和“探索性数据分析”中使用的技术之间没有任何区别-前项的贬义使用是误导性地作为确认性分析提出的探索性分析。
Scortchi-恢复莫妮卡

8
费曼在您参考的书中已经回答了这个问题:“如果他想检验(通过探索发现的)这一假设,……他必须做另一个实验。” 您似乎要问的是有关费恩曼是否太极端(“有点夸张”)的问题:如果通过探索相同的数据来发展假设,那么在多大程度上(如果有的话)可以对假设进行正式检验?
ub

2
@whuber:在实践中它甚至更加引人注目,因为经常使用不同的数据进行测试,但是相同的实验设置或实验类型将无意中导致相似的结果。
2013年

1
@一月:这取决于我认为您的数据/实验。考虑例如生物学/医学研究。对于我看到的数据,最大的差异通常是在患者(受试者)之间。希望对新患者重复实验会产生相似的结果,但实际上通常并非如此(即,在第一组患者上开发的模型的预测结果比预期的要差得多,这意味着发生了过度拟合,因此第一个实验中的数据被“折磨”)
cbeleites支持Monica

Answers:


22

有一个有时没有引起足够重视的区别,即假设生成与假设检验,或探索性分析与假设检验。您被允许提出世界上所有肮脏的把戏来提出您的想法/假设。但是,当您稍后对其进行测试时,您必须无情地杀死您的宝贝。

我是一直在研究高通量数据的生物学家,是的,我经常进行这种“切片和切割”。实验进行的大多数情况都没有精心设计。也许那些计划它的人并没有考虑所有可能的结果。或者说计划时的总体态度是“让我们看看那里有什么”。我们最终得到了昂贵,有价值和本身有趣的数据集,然后我四处转转以提出一个故事。

但是,那只是一个故事(可能的入睡时间)。在选择了两个有趣的角度(这是关键点)之后,您不仅必须使用独立的数据集或独立的样本进行测试,而且还必须使用独立的方法(独立的实验系统)对其进行测试。

这最后一件事的重要性-一个独立的实验装置,而不仅仅是一组独立的测量或样本-常常被低估了。但是,当我们测试30,000个变量的显着差异时,经常会发生以下情况:来自同一队列的相似(但不同)样本并使用相同方法进行分析时,不会拒绝我们基于前一组的假设。但是随后我们转向另一种类型的实验和队列研究,我们的发现结果是方法论偏见的结果或适用性受到限制。

这就是为什么我们经常需要几位独立研究人员发表几篇论文才能真正接受假设或模型的原因。

因此,我认为只要您牢记这一区别并记住自己在做什么,处于科学过程的哪个阶段,就可以对数据进行折磨。只要您具有独立的数据验证,就可以使用月相或重新定义2 + 2 。要将其放在图片上:

在此处输入图片说明

不幸的是,有些人在完成了几次实验之后又订购了微阵列将论文取整,但没有出现任何故事,希望这些高通量分析能够有所显示。或者他们对整个假设检验与世代相混淆。


我想可以解释我所看到的“假设生成”,但是我所谈论的操纵的目的绝对是发布从“折磨”的数据中获得的结果,并以最高的-接受论文的影响期刊。毋庸置疑,此类论文从不对研究结果的受折磨产生任何暗示。实际上,AFAICT的作者对此一点也不感到困扰。但是,我认为,如果这类论文的读者确切地知道有多少数据折磨使他们得到了
认可,

1
@kjo:假设的产生是科学过程的一部分,可以明确予以发表。所以那没有理由。
cbeleites支持Monica

@一月:您忘了提到能源部“拿走所有我们能得到的样品,反正它们太少了”,这是我遇到的最常见的能源部。
cbeleites支持Monica13年

@cbeleites:好吧,我一般不会幻想批评这种态度。通常,实验可以受益于大量重复实验。但我同意,实验者往往倾向于在物理上尽可能多地包括条件(样品类型,菌株,变体,类别等),这使分析成为一场噩梦,有时甚至完全掩盖了这个问题。
2013年

12

我最喜欢读研究生的赫曼·弗里德曼(Herman Friedman)曾经说过

“如果您不感到惊讶,那么您还没有学到任何东西”

除了对先验定义的假设进行最严格的检验之外,严格避免任何事情都会严重限制您的惊讶能力。

我认为关键是我们对所做的事情诚实。如果我们处于高度探索的模式,我们应该这样说。在另一端,我认识的一位教授告诉她的学生改变她的假设,因为原来的假设没有意义。


4
严格测试先验定义的假设窥探相同的数据以建议要严格测试的下一个先验定义假设,这没什么不对。如果我们处于探索性模式,我们应该这样说-只是说出我们真正做了什么-并让其他人确切地决定他们想要采取多少结果的食盐,无论他们相信其有效性如何,我们自己。对于强调诚实,我想给这个答案多于一票。
Scortchi-恢复莫妮卡

7

让我补充几点:

  • 首先,假设的产生是科学的重要组成部分。和非预测(探索/描述)的结果可以公布。

  • 恕我直言,麻烦并不在于在数据集上使用数据探索并且仅发布了这些发现的一部分。问题是

    • 没有描述已经尝试了多少
    • 然后得出结论,就好像该研究是对某些预测模型的验证研究/假设检验研究一样
  • 科学和方法的发展是一个迭代过程,而不仅仅是假设的产生-测试-生成新的假设-测试...。恕我直言,这是专业判断的问题,在什么阶段需要什么样的适当行为(请参见示例)下面)。

我所做的:

  • 尝试使人们意识到所产生的乐观偏见
    。我还人们展示了造成的差异有多大(主要是在同一个问题的水平较低的情况下才可行,例如,将经过患者独立验证的数据与内部表现进行比较超参数优化例程的估计值,例如用于SVM参数的网格搜索,诸如PCA-LDA之类的“组合模型”等,对于真正的数据挖掘并不是真正可行的,因为到目前为止,没有人给我赚钱合理规模研究的真实副本...)
  • 对于我与他人合着的论文:坚持讨论结论的局限性。确保得出的结论没有超出研究允许的范围。
  • 鼓励同事利用他们对研究主题和数据生成过程的专业知识来决定如何处理数据,而不是进行昂贵的(就您需要正确地进行样本量而言)优化模型-“超级”参数(例如要使用哪种预处理)。
  • 并行:尝试使人们意识到,如果做得正确,那么优化业务的成本是多么高昂(无论是否被称为“探索”都是无关紧要的;如果做错了,它将产生类似数据挖掘的结果),例如Beleites,C。和Neugebauer U.和T. Bocklitz以及C. Krafft和J. Popp:分类模型的样本规模规划。肛门Chim Acta,2013,760,25-33。DOI:10.1016 / j.aca.2012.11.007
    在arXiv上接受的手稿:1211.1323
  • 这是一项研究,发现这种盲目尝试通常也是徒劳的,例如
    J. Engel,J.Gerretzen,E.Szymańska,JJ Jansen,G.Downey,L.Blanchet,LMC Buydens:是否打破了预处理趋势? TrAC分析化学趋势,2013,50,96-106。DOI:10.1016 / j.trac.2013.04.015
    (他们尝试了很多预处理步骤的组合,发现很少有比完全没有预处理的模型更好的模型)

  • 强调我对数据的折磨并没有超出必要:
    示例

    所有预处理都是专门使用光谱学知识决定的,并且没有执行数据驱动的预处理。

    后续文件使用相同的数据作为例如用于(不同的)理论发展读取

    所有预处理均由光谱学知识决定,不包括数据驱动步骤,也不进行参数优化。但是,我们检查了将光谱的PLS投影[45]投影到25个潜在变量上,作为LR训练的预处理不会导致预测上的轻微变化(参见补充图S.2)。

    因为与此同时,我被明确要求(在CILS期刊的编辑会议上)将模型与PLS预处理进行比较。

  • 从实用的角度来看:例如,在上面链接的星形细胞瘤研究中,我当然还是在查看数据后决定了一些要点(例如,强度阈值对应于从样品外部获取的测量值,然后将其丢弃)。我知道其他不重要的决定(线性基准还是二次基准:我对这种类型的数据的经验表明,这实际上并没有太大变化-这也与Jasper Engel在类似类型的不同数据中发现的结果完全吻合,因此我不希望通过查看数据来确定基线类型会产生很大的偏差(本文提出了一个理由,为什么这样做很明智)。
    根据我们所做的研究,我们现在可以说下一步应该解决什么,应该改变什么。而且,由于我们仍处于方法开发的相对较早阶段(查看离体样品),因此在该方法可用于体内之前,不需经历所有最终需要的“作业” 。例如,在星形细胞瘤分级的当前阶段,重采样验证是比外部测试集更明智的选择。我仍然强调在某个时候将需要进行真正的外部验证研究,因为某些性能特征只能通过这种方式进行测量(例如,仪器漂移的影响/证明我们可以对此进行校正)。但是现在,当我们还在玩前体样本并且正在解决大问题的其他部分(在链接的论文中:如何处理临界情况),通过适当的离体验证研究获得的有用知识的收益太低,因此不值得付出努力(恕我直言:除非是为了测量由于数据疏导而产生的偏差)。

  • 我曾经读过一篇关于统计和报告标准的论据,以及是否应该认为这样的论点对于使我信服的期刊(不记得是哪本)而言:表达的想法是,编辑们无需尝试同意并执行一些标准(这将导致徒劳的讨论),因为:

    • 谁使用适当的技术通常对此会非常了解/感到骄傲,并将(并且应该)因此详细报告已完成的工作。
    • 如果没有明确说明某点(例如,数据挖掘,验证不独立于患者水平),那么审阅者/阅读者的默认假设是该研究未遵循该问题的适当原则(可能是因为他们没有更了解)

4

有时您看成“数据折磨”的东西并不是真的。在您看到数据之前,并不一定总是确切地知道要如何处理数据才能给出您认为是实验的真实结果。

例如,使用决策任务的反应时间数据,您通常希望拒绝与决策无关的时间(即,当它们进行得如此之快时,它们显然只是在猜测而没有做出决策)。您可以针对RT绘制决策的准确性,以查看猜测通常在何处发生。但是,除非您测试了该特定范例,否则您将无法知道临界点在哪里(及时,不是准确性)。对于某些观察者来说,这样的过程看起来像是对数据的折磨,但是只要它与假设检验没有任何直接关系(您不基于检验对其进行调整),就不会折磨数据。

只要实验方法正确,数据侦听就可以。将您的实验放在黑匣子中,仅在计划的主题数已运行时进行分析,这可能是不道德的。有时候,在查看数据之前,很难说出实验存在问题,应该尽快查看。数据窥视被严重贬低,因为它等同于查看p <0.05并决定继续。但是,您可以根据许多标准来决定继续收集,这些标准不会对您的错误率产生任何有害影响。

假设您要确保您的方差估算值在已知的可能范围内。小样本可能具有很远的方差估计,因此您可以收集额外的数据,直到您知道样本更具代表性为止。在下面的模拟中,我希望每个条件下的方差为1。我将做一些非常疯狂的事情,并分别为每个组采样10个样本,然后添加主题直到方差接近1。

Y <- replicate(1000, {
    y1 <- rnorm(10)
    while(var(y1) < 0.9 | var(y1) > 1.1) y1 <- c(y1, rnorm(1))
    y2 <- rnorm(10)
    while(var(y2) < 0.9 | var(y2) > 1.1) y2 <- c(y2, rnorm(1))
    c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1), length(y2) )
    })
range(Y[2,]) #range of N's in group 1
[1]   10 1173
range(Y[3,]) #range of N's in group 2
[1]   10 1283
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.045

因此,我只是抽调了样本,使我的方差接近预期,而且我对alpha的影响仍然不大(大约在0.05以下)。每组中还有一些约束(例如N)必须相等,并且不能超过30,α在0.05上非常正确。但是SE呢?如果我改为尝试将SE设为给定值怎么办?这实际上是一个非常有趣的想法,因为我要依次设置CI的宽度(而不是位置)。

se <- function(x) sqrt(var(x) / length(x))
Y <- replicate(1000, {
        y1 <- rnorm(10)
        y2 <- rnorm(10)
        while(se(y1) > 0.2 | se(y2) > 0.2) {
            y1 <- c(y1, rnorm(1)); y2 <- c(y2, rnorm(1))
        }
        c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1) )
        })
range(Y[2,]) #range of N's in group 1 and 2 (they're equal now)
[1] 10 46
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.053

同样,即使基于数据监听,我允许N从原来的10个漫游到46个,alpha的变化也很小。更重要的是,在每个实验中,SE都落在狭窄的范围内。如果担心的话,可以轻松进行较小的alpha调整来解决该问题。关键是某些数据监听几乎没有危害,甚至可以带来好处。

(顺便说一句,我所展示的并不是什么灵丹妙药。从长远来看,您实际上并没有减少主题的数量,因为改变N的模拟的能力与平均N的模拟的能力大致相同。 )

以上内容均与实验开始后增加受试者的最新文献没有矛盾。在这些研究中,他们着眼于模拟,在模拟中,您进行了假设检验后添加了主题,以降低p值。那仍然很糟糕,并且可能会使alpha膨胀。此外,我真的很喜欢January和Peter Flom的回答。我只是想指出,在收集数据时查看数据,甚至在收集数据时更改计划的N并不一定是坏事。


在不影响测试统计信息的抽样分布的意义上,这些事情都不是“好”的。当然,对意外的反应完全是明智的(参见@Peter的回答),但它们确实会稀释实验的确认性质,从而增加了“研究者的自由度”。正是为了避免意外,我们进行了初步研究以修正方案,并事先定义了停止规则,并在分析中将它们考虑在内。目标是定义明确的过程,可以独立复制以证明结果的有效性。
Scortchi-恢复莫妮卡

您可以随意运行仿真,但是具有基于方差的停止规则(超过合理的最小N)将不会对alpha产生影响,并且会产生预期的功效。您甚至可以拥有基于SE的停止规则,并获得一致的SE,而这些SE不会影响alpha或beta。您只是没有p基本的停止规则。修改N的所有批评都是关于在假设检验后进行的(还应该包括其他内容)。这有可能引起诱惑……但是我忽略了这一点。
约翰

至于反应时间分布,您建议最好是根据飞行员选择固定的切入点,而不是根据逻辑回归确定每个受试者何时猜测并使用他们自己的切入点?(当然,精确度的切入点是固定的,只是反应时间不固定)。
约翰

(1)基于方差的停止规则:它会影响方差估计,因此在分析实验时就可能会影响错误率,就好像样本大小已预先确定。在您的评论中给出的“超出合理的最小N”与答案中提到的“小样本量”之间存在着矛盾。毫无疑问,您有统计学意义,知道什么时候近似值足够好,但并非所有人都知道。更普遍地,一种不可绕过的方法是在实验之前明确定义停止规则。
Scortchi-恢复莫妮卡

(2)反应时间分布:否(尽管我承认有这样的想法);我建议无论采用哪种方法消除不可靠的观察结果,都应从试点研究中更好地开发出来,然后再应用于验证性实验中。
Scortchi-恢复莫妮卡

0

这实际上是一个思想不平衡的文化问题,出版偏见导致正面结果受到青睐,而我们的竞争性质要求编辑者和研究人员被视为产生了新颖或有争议的令人感兴趣的结果,例如,驳斥别人的结果。在医学研究中,通过强制性注册试验以及公布结果以及废止试验的记录来公开解决这一问题,已经取得了很大进展。我知道,由于在杂志上发表不成功的研究可能不切实际,因此有计划保留这些数据库的公开数据库。无法复制的异常结果不一定是轻罪的结果,例如50

使用不同的方法也不一定是解决方案。例如,哪个化学家会在不同条件下以不同方式混合试剂,并理所当然地期望得到相同的结果?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.