接受原假设


15

这是关于统计学和其他科学交叉的讨论问题。我经常遇到同样的问题:我领域的研究人员倾向于说,当p值不小于显着性水平时,没有任何影响。一开始,我经常回答这不是假设检验的工作原理。鉴于这个问题多久出现一次,我想与经验丰富的统计学家讨论这个问题。

让我们考虑一下 “最佳出版集团”《自然通讯生物学》最近在科学期刊上发表的一篇论文(有多个示例,但我们只关注其中一个)

研究人员通过以下方式解释不具有统计意义的结果:

因此,长期适度的热量限制可以延长寿命并增强灵长类动物的健康,但它会影响大脑灰质的完整性,而不会影响认知能力

证明:

然而,对照和限制热量的动物在Barnes迷宫任务中的表现没有差异(LME:F = 0.05,p = 0.82;图2a)。同样,自发的轮换任务也没有揭示对照动物和受卡路里限制的动物之间的任何差异(LME:F = 1.63,p = 0.22;图2b)。

作者还提出了对缺乏效果的解释-但关键不是解释,而是主张本身。所提供的图对我来说看起来很不一样(图2)。

此外,作者忽略了先验知识:

已经报道了热量限制对大鼠以及人类大脑和情绪功能的有害影响

对于庞大的样本量,我可以理解相同的主张(没有影响=在那里没有实际的显着影响),但是在特定情况下,使用了复杂的测试,而且对我来说执行功率计算并不明显。

问题:

  1. 我是否忽略了使他们的结论成立的任何细节?

  2. 考虑到需要报告科学中的负面结果,如何证明这不是“没有结果”(),而是“负面结果(例如,各组之间没有差异)”使用统计数据?我了解到,对于巨大的样本量,即使与零值的偏差很小,也会导致拒绝,但让我们假设我们拥有理想的数据,并且仍然需要证明零值实际上是正确的。p>α

  3. 统计学家是否应该始终坚持数学上正确的结论,例如“拥有这种能力,我们无法检测出巨大​​的影响”?来自其他领域的研究人员强烈不喜欢这种负面结果的表述。

我很高兴听到对这个问题的任何想法,并且已经阅读并理解了该网站上的相关问题。从统计的角度来看,对问题2)-3)有明确的答案,但是我想了解在跨学科对话的情况下必须如何回答这些问题。

UPD:我认为阴性结果的一个很好的例子是医学试验的第一阶段,即安全性。什么时候科学家可以确定这种药物是安全的?我猜他们将两组进行比较并对此数据进行统计。有没有办法说这种药是安全的?Cochrane使用准确的“未发现副作用”,但医生说这种药物是安全的。当描述的准确性和简单性之间达到平衡时,我们可以说“对健康没有影响”吗?


2
您将不具有统计意义的结果称为“阴性”研究。这是防御性的语言。我对其进行了修改,以按原样对其进行称呼:非统计有效,例如。如果我错了,请告诉我怎么做。否则,这对于您和您的合作者描述研究是有用的语言。仅表示。如果,在某些方面可能是一个非常“积极”的发现;也许这是第一项大规模的流行病学研究,旨在检查化学暴露与人类健康之间的关系,并发现该事实实际上是安全的。p > α p > α Ñ = 500 000p>αp>αp>αn=500,000
AdamO

4
旁注:我绝不建议使用自然作为如何正确使用统计数据的准则。
Cliff AB

1
@AdamO我有一个例子,其中两篇论文或多或少同时发表,其中一篇论文声称强烈的负面结果(这是他们的主要结论),而在第二篇更有效的研究中,他们发现并产生了效果。但是,如果第一作者写下“具有80%的功效,且效应大小为1,我们将找不到显着的效应”-即使在负面结果杂志上,他也不会发表。
德国人Demidov

2
但非统计学家问我“您如何证明负面结果?” -我不知道该怎么回答。等效性试验中经常使用的假设又如何呢?这包括一个额外的术语,称为“等效边界”,并且可以考虑均值差。
Penguin_Knight

2
Nature Publishing Group正在利用这是一个普遍的错误,但是这些期刊之间的声望差异巨大。也就是说,自然界中的论文当然也可以有草率的统计数据。
变形虫说恢复莫妮卡

Answers:


7

我认为有时本着“接受零假设”的精神来解释非统计意义上的重要结果。实际上,我已经看到以这种方式解释了具有统计学意义的研究。该研究过于精确,其结果与狭窄的非无效但临床意义不大的结果一致。对于巧克力/红葡萄酒的摄入量及其对糖尿病的“有益”作用之间的关系,这是一项研究(或更多是其出版物)的批评。高/低摄入量胰岛素抵抗分布的概率曲线是歇斯底里的。

人们是否可以将发现解释为“确认H_0”取决于许多因素:研究的有效性,效力,估计的不确定性和现有证据。报告置信区间(CI)而非p值可能是您作为统计学家最有用的贡献。我提醒研究人员和统计学家其他同僚,统计学不能做出决定,人们却可以做出决定。省略p值实际上会鼓励对结果进行更深入的讨论。

CI的宽度描述了可能包括或可能不包括无效值,并且可能包括或可能不包括非常具有临床意义的值(如挽救生命的可能性)的作用范围。但是,狭窄的CI证实了一种效应。后者在真实意义上是“重要的”,或者前者可以是null或非常接近null的某种东西。

也许需要的是对什么是“无效结果”(以及无效结果)有更广泛的了解。在研究合作中我感到失望的是,当研究人员无法事先说明他们针对的作用范围是什么:如果一项干预旨在降低血压,那么多少毫米汞柱?如果一种药物可以治愈癌症,那么患者将存活多少个月?那些对研究充满热情并“涉足”于其领域和科学的人可能会抱怨有关先前研究和已完成工作的最令人惊讶的事实。

在您的示例中,我不禁注意到0.82的p值可能非常接近null。由此,我所能知道的是CI的中心是一个空值。我不知道它是否包含临床上显着的作用。如果配置项非常狭窄,我认为它们给出的解释是正确的,但数据不支持它:那将是次要的编辑。相反,第二个p值0.22相对接近其显着性阈值(无论它可能是多少)。作者相应地将其解释为“没有给出任何差异证据”,这与“不拒绝H_0”类型的解释一致。至于本文的相关性,我只能说很少。我希望您能浏览文献,找到更多有关研究结果的重要讨论!据分析


1
Adamo的,是不是˚F统计最接近零等于平均的的˚F分布对于给定的分子和分母的自由度?如果有的话,我认为F统计量接近于0意味着具有等价性。实际上,Wellek在2010年的《检验等价和非劣等统计假设》第7.2节检验k正态分布的等价问题(第221-225页)中正是以此为动机。Fk
亚历克西斯

pμ=μ0μμ0

当然!(如果不清楚,则为+1),但认真的说,您应该对等效测试有所了解:它出现在临床流行病学和生物统计学(该领域的光荣传统!)中,但对于常识性推断却具有普遍意义。:)
Alexis

1
@GermanDemidov在这些问题上我持强硬立场:我认为,如果无法解释复杂的分析结果,则不应考虑这些复杂的分析。他们确实有解释。生存分析,由Hosmer撰写,Lemeshow,May,第二版,整整一章(4)致力于解释Cox模型输出。像Shapiro这样的测试不足之处,最好使用绘图来解决(这通常排除了测试本身)。重采样统计数据提供了一种在多种建模条件下计算CI的强大方法,但是它们需要正确使用合理的理论。
AdamO '18年

3
αH0

12

H0H0HAHA

但是,我们认识到,有各种不同的无效假设:

  • H0:θθ0H0:θθ0

  • H0:θ=θ0H0:θθ0=0H0:θ1=θ2H0:θ1θ2=0H0+kH0+:θi=θj;i,j{1,2,k};  and ij

  • H0:|θθ0|ΔH0:|θ1θ2|ΔΔH0±Δ|Δ|kH0:|θi=θj|Δ;i,j{1,2,k};  and ij

[tost]H0+H0+,是因为没有真正的效果,还是因为样本量太小并且测试功能不足?相关性测试可直接解决这些问题。

有几种执行等效性测试的方法(无论是否与差异测试组合在一起):

  • 两个单边检验(TOST)将上面表达的一般否定主义原假设转化为两个特定的单边原假设:
    • H01:θθ0ΔH01:θ1θ2Δ
    • H02:θθ0ΔH01:θ1θ2Δ
  • 等效性最强大的统一测试,在算术上往往比TOST复杂得多。Wellek是这些的权威参考。
  • 我相信,一种置信区间方法首先是受舒尔曼(Schuirman)的启发,然后又被Tryon等其他公司改进。


参考文献 Reagle,DP和Vinod,HD(2003)。用数值计算的排斥区域推论否定理论计算统计与数据分析,42(3):491–512。

Schuirmann,DA(1987)。两种单方面测试程序和用于评估平均生物利用度等效性的功效方法的比较药物动力学与生物制药杂志,15(6):657–680。

Tryon,WW和Lewis,C.(2008)。建立统计等价性的推论置信区间方法,可以校正Tryon(2001)的折减系数心理方法,13(3):272–277。

Tryon,WW和Lewis,C.(2009)。使用推论置信区间评估统计差异,等价性,不确定性和琐碎差异的独立比例教育与行为统计杂志,34(2):171–189。

Wellek,S.(2010年)。检验等价性和非自卑性的统计假设。查普曼和霍尔/ CRC出版社,第二版。


1
拒绝我投票的人应该加深对原因的反馈:很明显,我会提供详细的答案,并对输入内容做出响应。
亚历克西斯

9

您指的是统计课程中教授的标准推理实践:

  1. H0,Ha
  2. α
  3. 将p值与进行比较α
  4. H0HaH0

很好,并且已在实践中使用。我什至敢于猜测此程序在某些受监管的行业(例如制药业)中可能是强制性的。

但是,这并不是统计和推理在研究和实践中应用的唯一方法。例如,看一下这篇论文:“在大型强子对撞机上用ATLAS探测器寻找标准模型希格斯玻色子时观察新粒子”。该论文首先在所谓的ATLAS实验中提出了希格斯玻色子存在的证据。它也是其中作者列表与实际内容一样长的论文之一:)

  • H0HaH0
  • ασ
  • α
  • 他们以通常的置信度(例如95%)显示置信区间

结论的表达方式如下:“这些结果为发现质量为126.0±0.4(静态)±0.4(系统)GeV的新粒子提供了确凿的证据。” “统计”一词是指统计的不确定性,“系统”是指系统的不确定性。

因此,如您所见,并不是每个人都按照我在此答案开头概述的四步过程进行操作。在这里,研究人员显示p值时没有预先设置阈值,这与统计课中讲的相反。其次,至少正式地,他们不做“拒绝/失败拒绝”舞蹈。他们开始追逐,并说:“这是p值,这就是为什么我们说我们发现了一个质量为126 GeV的新粒子。”

重要的提示

希格斯论文的作者尚未宣布希格斯玻色子。他们只断言发现了新粒子,并且它的某些性质(例如质量)与希格斯玻色子一致。

在确定该粒子确实是希格斯玻色子之前,花了几年的时间收集其他证据。请参阅此博客文章,并对结果进行早期讨论。物理学家接着检查了诸如零旋转之类的不同特性。当证据在某个时刻被收集时,欧洲核子研究中心宣布该粒子为希格斯玻色子。

为什么这很重要?因为不可能将科学发现的过程琐碎化为某种严格的统计推断程序。统计推断只是使用的一种工具。

当CERN寻找这个粒子时,重点是首先找到它。这是最终目标。物理学家知道在哪里看。一旦找到候选人,他们就会集中精力证明自己是候选人。最终,证据的全部,而不是单个具有p值和重要性的实验,使每个人都确信我们找到了该粒子。在这里包括所有先验知识和标准模型。这不仅是统计上的推断,科学的方法还比这更广泛。


哇,您的答案很棒!这是一个很好的例子。我希望生命科学家在最长10年内也能采用这种报告方式!
德国人Demidov

5

有一些方法可以不依赖于功效计算(参见Wellek,2010)。特别是,您还可以测试是否拒绝该影响具有先验意义的空值。

DaniëlLakens在这种情况下主张进行等效性测试。湖人尤其使用“ TOST ”(两个单面测试)进行均值比较,但还有其他方法可以得出相同的想法。

在TOST中,您测试了一个复合零值:一个单面零值假设,即您的效果比最小的兴趣负差更负,而零值的假设是您的效果比最小的兴趣正差更正。如果您同时拒绝两者,那么您可以声称没有任何有意义的区别。请注意,即使效果与零显着不同,也可能发生这种情况,但是在任何情况下都不需要认可null。

Lakens,D.(2017年)。等效测试:t检验,相关性和荟萃分析的实用入门社会心理与人格科学,8(4),355-362。

Wellek,S.(2010年)。检验等价性和非自卑性的统计假设。查普曼和霍尔/ CRC出版社,第二版。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.