当前辩论对统计意义的影响


10

在过去的几年中,各种各样的学者提出了一个有害的科学假设检验问题,称为“研究者自由度”,这意味着科学家在分析过程中有很多选择偏向于p值<5%的发现。例如,这些模棱两可的选择包括要包含的情况,被归类为异常的情况,运行大量的模型规范,直到出现某种情况,不发布无效结果,等等。(引发心理学争论的论文在这里,看到一个受欢迎的石板条和后续辩论安德鲁·盖尔曼在这里,和时代杂志还谈到了这个话题在这里。)

首先,一个澄清问题:

时代》杂志写道,

“ 0.8的幂表示经过检验的十个真实假设中,只有两个被排除在外,因为其影响未在数据中得到体现。”

我不确定这是否适合我在教科书中找到的幂函数的定义,这是拒绝空值作为参数的函数的可能性。使用不同的我们具有不同的功能,因此我不太理解上面的引用。θθθ

其次,一些研究意义:

  1. 在我的政治科学/经济学领域,学者只是用尽了所有可用的国家/地区年度数据。因此,我们不应该在这里摆弄样品吗?

  2. 是否可以仅通过学科中的其他人将重新测试您的论文并由于没有可靠结果而立即将您击倒这一事实来解决运行多个测试但仅报告一个模型的问题?预见到这一点,我这一领域的学者更有可能包括一robustness check节,他们表明多个模型规范不会改变结果。这够了吗?

  3. 安德鲁·盖尔曼(Andrew Gelman)和其他人指出,无论数据如何,总是有可能找到并发布一些并非真正存在的“模式”。但是,考虑到任何经验的“模式”都必须得到理论的支持,并且学科内的竞争理论只会进行辩论/竞赛,以找出哪个阵营能够找到更多的“模式”,因此这不必担心。在各个地方。如果某个模式确实是虚假的,那么当其他样本/设置中没有类似的模式时,后面的理论将很快被推翻。这不是科学的进步吗?

  4. 假设当前期刊对无效结果的趋势实际上将会蓬勃发展,是否有办法让我们将所有无效结果和肯定结果汇总在一起,并推断它们都试图检验的理论?


另请参阅“心理学和物理学中的理论测试:方法论悖论”。“空假设”对于您的领域始终是错误的。即使采用适当的研究实践,重要性检验和假设检验也可能是不合适的。
Flask

您的问题1与问题3冲突。在政治/经济学中,是否有其他可用的样本/设置?
Flask

Answers:


11

而不是使用p值来评估索赔,我们应该遵循Robert Abelson的建议并使用MAGIC标准:

Magnitude
Articulation
Generality
Interestingness
Credibility

有关Abelson的更多信息,请参阅我对他的书的评论

而且,我们应该专注于效果大小,而不是统计输出中的p值(某些数据挖掘可能是例外,我一点也不擅长)。效果大小应根据上下文进行判断:

1 in 1000 pairs of pants gets the wrong size label - not a big deal
1 in 1000 airplanes are defective in a way that leads to crashes - a big deal
1 in 1000 nuclear reactors is defective in a way that leads to meltdown - uh oh

统计人员/数据分析师不应是一个奇怪的人,就像一个黑匣子,用来放入数据并从中获得p值;考虑到当前的理论(或缺乏)和证据(或缺乏),他/她应该是研究的合作者,该研究旨在就某个领域的上下文中的一组数据的含义进行合理的论证。

不幸的是,这种方法要求实质性研究人员,数据分析人员和审查结果的任何人(无论是尖顶的上司,论文委员会,期刊编辑还是任何人)都要进行思考。奇怪的是,甚至学者们似乎也不喜欢这种想法。

有关我的观点的更多信息,这是我写一篇文章,已发表在Sciences360上。


4
+1虽然我非常同意您的看法,但我可以想象说“我的主张得到MAGIC的支持”可能并不总是有帮助的:-)
Marc Claesen 2013年

1
是的,您必须将其说明清楚,但是,如果您这样做了,我认为它可能会起作用:“这些效果很大,几乎没有例外,影响了很多人,因为XXXX很有意思,因为他们XXXX值得信赖”可能有效。我没有看到它尝试过。:-)
彼得·弗洛姆

1
是; 如果有理论说如何发生,则主张是“可信的”;是否已复制,依此类推。如果没有物理或其他理论上的解释,它的可信度就会降低。索赔越不可信,则需要更多的证据。
彼得·弗洛姆

2
@Anh科学中的可信度应通过理论预测理论发展中未使用的现象的程度来衡量。在评估这些预测是否是好的预测时,可信度需要独立研究人员的重复。有大量的经验证据表明,重要性检验和假设检验似乎都实际上阻碍了这两种行为,反而鼓励了出版偏见和“ p-hacking”任意“意义”被切断的适得其反的活动。
Flask

1
@Flask-我会说p值不一定是问题,更多的是使用弱假设检验是问题。物理学也使用p值,但是具有导致点预测的假设(即实际的零假设)。从根本上说,找到“积极影响”对于建立理论是无用的-您需要进行点估计才能正确确认理论。
概率

3

统计科学领域从一开始就解决了这些问题。我一直说统计学家的作用是确保第一类错误率保持固定。这意味着做出错误肯定结论的风险无法消除,但可以控制。这应该引起我们对正在进行的大量科学研究的关注,而不是对一般统计实践的哲学和伦理学的关注。对于媒体(或政府政策)上出现的每一个令人难以置信的(不可思议的)结果,至少有19个其他不可思议的结果因其无效的发现而被击落。

确实,如果您访问例如Clinicaltrials.gov,您会发现目前针对美国的药剂师正在进行(几乎所有疾病指征)超过1,000项临床试验。这意味着,如果假阳性错误率为0.001,则平均至少有一种药物将被放置在无效果的货架上。0.05的有效性作为统计意义的有效阈值已一再受到挑战。具有讽刺意味的是,只有统计学家对使用1/20的假阳性错误率感到不自在,而财务利益相关者(无论是PI还是默克公司)都会顽强地追求信念,而无论体外结果,理论证据或先验证据的强度如何。老实说 坚韧是许多在非统计工作中取得成功的个人的成功和值得称赞的个人品质。在他们各自的图腾中,他们通常坐在统计学家之上,他们倾向于利用这种韧性。

我认为您提出的时间报价完全错误。功效是在假设为假的情况下拒绝原假设的概率。更重要的是,这完全取决于原假设的“错误”程度(这又取决于可测量的效应大小)。我很少在我们认为“有趣”的影响的背景下谈论权力。(例如,对第4期胰腺癌进行化学治疗后4个月的生存期并不令人感兴趣,因此没有理由招募5,000名患者进行3期试验)。

解决您提出的问题

  1. ???

  2. 多重性很困难,因为它不会导致关于如何处理数据的明显决策规则。例如,假设我们对均值差的简单检验感兴趣。尽管我的同事提出了无数次抗议,但很容易证明,无论数据的抽样分布如何,均已很好地校准了t检验以检测均值差异。假设我们另辟pursue径。他们将首先使用某种已知的分布测试的变体(例如,qqplot的校准)测试正态性。如果数据看起来足够非正常,则他们将询问数据是否遵循任何众所周知的变换,然后应用Box Cox变换来确定使熵最大化的幂变换(可能是对数的)。如果弹出一个明显的数值,他们将使用该转换。如果没有,他们将使用“免费发行” Wilcoxon测试。对于这种特殊的事件序列,当简单,愚蠢的t检验就足够了时,我无法开始希望如何为均值差异的简单检验计算校准和功效。我怀疑这样的愚蠢行为可以在数学上与Hodge的超高效估算联系在一起:在我们想要真实的特定假设下,估算器具有很高的功效。但是,这个过程是 s超高效估计:在我们想要真实的特定假设下,具有高功效的估计器。但是,这个过程是 s超高效估计:在我们想要真实的特定假设下,具有高功效的估计器。但是,这个过程是由于尚未控制假阳性错误率,因此无法统计。

  3. 可以在任何随机数据集中错误地“发现”趋势的概念可能可以追溯到Martin撰写的写得很好的文章,即“ Munchaesen的统计网格”。这是一本很有启发性的读物,其历史可以追溯到1984年,当时我们知道机器学习的金牛犊诞生了。确实,正确陈述的假设是可以证伪的,但是在我们的数据驱动型社会中,类型1错误的代价比以往任何时候都高得多。例如,考虑一下导致大量百日咳死亡的抗疫苗研究的虚假证据。促使疫苗免于公众使用的结果与一项研究相关联(尽管是错误的,但未得到外部研究的证实)。有道德上的动力去进行结果和报告诚实至善的证据。证据有多强?它与您获得的p值无关,但是您说的p值将是重要的。请记住,即使最终的验证性测试报告数据有所不同(通常小得多),对数据进行伪造也会改变p的值。

  4. 是!您可以在诸如Cochrane报告之类的期刊发表的荟萃分析中清楚地看到,测试结果的分布看起来比noraml更呈双峰分布,只有正面和负面的结果才成为期刊。对于临床实践中的任何人来说,这一证据绝对是使人困惑的。相反,如果我们发布无效结果(来自我们本来会感兴趣的研究,而不论结果如何),那么我们可以期望荟萃分析实际代表有意义且具有代表性的证据。


1
威廉·戴明(William Deming)在“ 基于概率作为行动的基础”中区分了“枚举”和“分析”研究。他指出,每个实验的结果都取决于实验的确切环境,因此,统计学家试图控制“ I型错误率”在不同条件下进行治疗时,总是会产生未知数量的偏差。 。
Flask

@Flask同样,国际空间站上的机械程序也没有得到完美校准,但是工程师对细节的关注和误差的最小化确保了我们没有发现太空怪异。
AdamO 2013年

工程师(希望)在所有预期条件下测试组件,然后根据组件生成的模型增加额外的误差。这是戴明(Deming)提倡的行为类型,不同于试图通过评估一项研究的抽样误差就治疗的未来性能或因素之间的关系得出结论。我没有在其他地方提到过这是一个非常有趣的区别。
Flask

我认为说“由于没有控制假阳性错误率而没有统计数据的过程”是完全没有道理的。对于统计而言,错误率控制不仅是常识,而且常识性的位对于科学更有用。您可能想阅读我最近就该主题发表的论文:arxiv.org/abs/1311.0081
Michael Lew,

1
@Adamo在频繁推理中缺乏证据的确是贝叶斯人(和可能性主义者)的流行观点,但是它已经得到充分验证,并且是Neyman和Pearson在他们设计惯常方法的第一篇论文中明确表达的观点!也许您应该虚心阅读我的论文。信息就在那里。
Michael Lew

3

首先,我不是统计学家,而是一位研究人员,在过去的几年中对它进行了大量研究,以弄清为什么我所观察到的方法如此缺乏,以及为什么对诸如“是p值?” 我会发表我的看法。

首先,一个澄清问题:

《时代》杂志写道,

"A power of 0.8 means that of ten true hypotheses tested, only two will be ruled out > because their effects are not picked up in the

数据;”

我不确定这是否适合我在教科书中发现的幂函数的定义,幂函数是拒绝将空值作为参数θ的函数的可能性。对于不同的θ,我们具有不同的功效,因此我不太理解上面的引用。

功效是θ,方差和样本大小的函数。我不确定这是什么混乱。同样,在许多使用显着性检验的情况下,mean1 = mean2的无效假设始终为假。在这些情况下,重要性仅是样本量的函数。请阅读保罗·米尔(Paul Meehl)的“心理学与物理学的理论测试:方法论悖论”,它为我澄清了许多事情,而且我从未见过适当的回应。保罗·米尔(Paul Meehl)对此还有其他一些论文,您可以通过搜索他的名字来找到。

在我的政治科学/经济学领域,学者只是用尽了所有可用的国家/地区年度数据。因此,我们不应该在这里摆弄样品吗?

如果您阅读Simmons 2011论文,这只是提到的“ p-hacking”技术之一。如果确实只有一个数据集,而且没有人从中挑选出选择性样本,那么我猜没有增加样本量的空间。

是否可以仅通过学科中的其他人将重新测试您的论文并由于没有可靠结果而立即将您击倒这一事实来解决运行多个测试但仅报告一个模型的问题?预见到这一点,我这一领域的学者更有可能包括一个健壮性检查部分,该部分显示出多个模型规范不会改变结果。这够了吗?

如果复制是在没有发表偏见的情况下进行的,则不需要“无效结果期刊”。我要说的是,健壮性检查部分很好,但是在研究人员未能发布他们认为无效的结果的情况下是不够的。同样,我不会仅仅因为对同一数据的多种分析技术得出相同的结论就认为结果具有鲁棒性。可靠的结果是对新数据做出正确的效果/相关性等预测。

复制两次都没有达到p <0.05。如果该理论预测的效果/相关性等与第一项研究中所使用的不同,则应认为该理论更可靠。我不是指效果或相关性的存在,而是指精确值或与可能的值范围相比较小的值范围。在无效假设为假的情况下,效果增强/减弱或正/负相关性的存在很可能为100%。阅读Meehl。

安德鲁·盖尔曼(Andrew Gelman)和其他人指出,无论数据如何,总是有可能找到并发布一些并非真正存在的“模式”。但是,考虑到任何经验的“模式”都必须得到理论的支持,并且学科内的竞争理论只会进行辩论/竞赛,以找出哪个阵营能够找到更多的“模式”,因此这不必担心。在各个地方。如果某个模式确实是虚假的,那么当其他样本/设置中没有类似的模式时,后面的理论将很快被推翻。这不是科学的进步吗?

如果研究人员未能发布无效结果,则科学将无法正常运行。同样,仅因为在第二个样本/设置中未发现该模式,也不表示它在最初的研究条件下不存在。

假设当前期刊对无效结果的趋势实际上将会蓬勃发展,是否有办法让我们将所有无效结果和肯定结果汇总在一起,并推断它们都试图检验的理论?

这将是荟萃分析。在这种情况下,null结果没有什么特别之处,除了p值高于任意阈值之外,研究人员不发布它们。在存在出版偏见的情况下,荟萃分析是不可靠的,因为整个文献都存在出版偏见。尽管可能有用,但是元分析对于评估一种理论远不如让该理论做出准确的预测然后进行检验。只要有新的预测并由独立的小组加以复制,出版偏差就几乎无关紧要。


我对时间引用的困惑是,幂函数不应仅限于引号所暗示的null为真时。没错,幂函数的域是整个参数空间。因此,没有特定的“功率0.8”可以分配给测试。
海森堡

我完全同意您的观点,即需要对新数据进行理论检验。但是在政治科学或宏观经济学的情况下,我们只有这么多国家和这么多年,那是否一定会挫败这种努力呢?
海森堡

@Anh每秒钟都有新数据要添加。该理论应预测未来。例如,在天文学中,人们曾预测过彗星的位置。您还可以计算期望参数值的功率。因此,在引用的情况下,他们将指的是检验一种预测至少r = .5的相关性的理论的能力。
Flask 2013年

阐明r = 0.5将是理论预测的相关性的一个示例。
Flask 2013年

2

我可以简单地说一下,因为原假设检验实际上只是关于原假设。通常,原假设通常不是人们所关注的,甚至可能不是“现状”,尤其是在假设检验的回归类型中。在社会科学中通常没有现状,因此零假设可以是任意的。由于起点是不确定的,因此这对分析产生了巨大的影响,因此不同的研究从不同的零假设开始,最有可能基于其可用的任何数据。将此与牛顿运动定律进行比较-将其作为零假设是有意义的,并尝试从此出发点寻找更好的理论。

此外,p值不能计算正确的概率-我们不希望知道尾部概率,除非随着您进一步进入尾部而更有可能提出替代假设。您真正想要的是理论预测实际看到的内容的能力。例如,假设我预测“小雨”的可能性为50%,而我的竞争对手预测为75%的机会。事实证明这是正确的,我们观察到有阵雨。现在,当确定哪个气象人员是正确的时,您不应再因给予40%的“雷暴”机会而给我的预测以其他荣誉,也不应因给予“雷暴”的0%机会而使我的竞争对手屈服。

IDH

BF=P(D|HI)P(D|H¯I)

HBF=H0.001

104,490,00052,263,471yBin(n,0.5)y|θBin(n,θ)θU(0,1)yBetaBin(n,1,1)DU(0,,n)p=0.00015

BF=(ny)2n1n+1=(n+1)!2ny!(ny)!=11.90

怎么会这样?尽管p值很小,贝叶斯因子仍支持原假设。好吧,看一下替代方案-它给出了观察值 -替代方案不能为事实提供良好的解释-因此,更可能使用null,但仅相对于另一种。请注意,null仅于此。但这仍然比替代方案更好。1n+1=0.00000000960.00000011

对于盖尔曼(Gelman)批评的例子而言,尤其如此-真的只检验了一种假设,而没有考虑太多。以前的研究支持的替代方案,最重要的是,c)他们做出什么预测(如果有),与零值有实质性的不同?

但是请注意,是未定义的,基本上代表了与先前信息一致的所有其他假设。真正正确进行假设检验的唯一方法是,指定要比较的一系列替代方案。即使你做到这一点,说你有,您只能在该数据支持的事实报告相对于您所指定的内容。如果您从备选方案集中遗漏了重要的假设,则可能会得到无意义的结果。此外,给定的替代方案可能证明比其他替代方案更合适,但仍然不太可能。如果您有一项p值为H¯H1,,HKHk0.01但是p值为一百种不同的测试中,“最佳假设”(最佳含义比真实含义更好)实际上更有可能来自“几乎有意义”的结果组。0.1

需要强调的重点是,永远不可能存在一个孤立于假设的假设。因为,在指定了理论/模型之后,您总可以添加一个新的假设 实际上,这种类型的假设实际上是科学的进步-某人有了新的想法/ explanation产生某种效果,然后针对当前的替代方案测试这一新理论。它的与,而不仅仅是与。简化版本仅适用于有非常受支持的假设时H K + 1 = H K + 1 H 1H K H 0 H A H 1H K还没想到K

HK+1=Something else not yet thought of
HK+1H1,,HKH0HAH1,,HK-即,在我们目前拥有的所有思想和解释中,有一种占主导地位的理论很突出。对于社会/政治科学,经济学和心理学的大多数领域,绝对不是这样。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.