为什么0.05 <p <0.95的结果称为假阳性?


9

编辑:我的问题的基础是有缺陷的,我需要花一些时间弄清楚它是否甚至可以说得通。

编辑2:澄清一下,我认识到p值不是零假设的概率的直接量度,但是我假设p值越接近1,则假设就越有可能被选择用于相应零假设为真的实验测试,而p值越接近0,则被选择用于相应零假设为假的实验测试的可能性就越大。除非所有假设(或为实验选择的所有假设)的集合在某种程度上是病理性的,否则我看不到这是错误的。

编辑3:我认为我仍然没有使用明确的术语来问我的问题。当彩票号码被读出并与彩票一一对应时,情况就会发生变化。您赢了的概率不会改变,但是您可以关闭收音机的概率却不会改变。实验完成时也会发生类似的变化,但是我感到我使用的术语-“ p值会更改选择正确假设的可能性”-不是正确的术语。

编辑4:我收到了两个非常详尽而翔实的答案,其中包含大量信息供我参考。我现在将它们都投票给我,然后在我从两个答案中学到足够多的知识后知道他们已经回答了我的问题或使我的问题无效时,再回来接受它们。这个问题打开了比我原本希望吃的蠕虫还要大得多的蠕虫罐。

在我读过的论文中,我看到经过验证的p> 0.05的结果称为“假阳性”。但是,当实验数据的ap <0.50低但大于0.05且不是零假设和p时,我选择一个假设以错误的相应零假设进行检验的可能性是否更大?考虑到@NickStauner 链接中指出的不对称性,研究假设在0.05 <p < 0.95之间的任何地方统计上不确定/无关紧要(鉴于常规的统计显着性临界值)。

让我们将数字称为A,并将其定义为p值,该值表示您为实验/分析选择了真实零假设的可能性相同,p值为0.05表示您的可能性为我们为您的实验/分析选择了一个真实的非零假设。0.05 <p <只是说:“您的样本量不足以回答问题,在您获得更大的样本并获得统计数据之前,您将无法判断应用程序/现实世界的重要性意义整理出来了吗?

换句话说,当且仅当p> A时才将结果绝对确定为假(而不是仅仅不受支持)是否正确?

这对我来说似乎很简单,但是如此广泛的使用告诉我我可能是错的。我是

a)误解了数学,
b)抱怨一种无害(如果不是完全正确)的惯例,
c)完全正确,或者
d)其他?

我认识到这听起来像是在征求意见,但这似乎是一个问题,它在数学上有明确的正确答案(一旦设定了有效截断值),那么我或(几乎)其他所有人都会出错。


1
嗨,大卫。
这是让

2
在第一行中,您不是要写“ ...结果最初p<0.05 但随后 p0.05 验证后...”? p 大于阈值 α否则称为负面结果。即使在您进行编辑后,您对p是不正确的,因此,我建议您花些时间回顾一下我们的一些解释p值的帖子,然后重新考虑您要问的问题。
ub

1
您可以根据需要删除自己的问题,但是当您收到两个赞(哦,哎呀,让它变成3),一个赞的答案,并准备从“您的真心”那里收到另一个答案时,请您离开积极努力并按照您认为合适的方式进行工作,尽管我谨遵照您的意愿做事。干杯!
Nick Stauner 2014年

1
我同意@ Nick,Andrew:您在这里提出了一个令人信服的挑衅性问题,引起了一些思考和关注,因此,如果您将其保留下来,并在可能的情况下进行一些改进,以便我们专注于解决问题,我们将不胜感激。有关如何解释p值的关键问题。据我所知,新颖的部分是建议拒绝标准应基于较大的p值。请发表您的评论:当检验有效但已知零假设为真时,就会出现假阳性。
ub

1
@whuber:对我来说,更引人注目的背景是结果将表明,采用更大样本量的后续实验可能会产生成果。鉴于到目前为止的回答,看来我需要问p值是否可能与该问题有关。知道作为假阳性的量度的零假设是正确的:在情况p>(1-α)之外,什么时候说零假设是正确的?
Andrew Klaassen 2014年

Answers:


15

您的问题基于错误的前提:

当p <0.50时,原假设是否仍然更有可能比不是错

p值不是零假设为真的可能性。例如,如果您接受了一千个原假设为真的案例,那么其中一半将具有p < .5。那一半将全部为空。

确实,p > .95意味着零假设是“可能是正确的” 的想法同样具有误导性。如果原假设为真,则该概率p > .95与的概率完全相同p < .05

预计到达时间:您的修改可以更清楚地说明问题所在:您仍然确实遇到了上述问题(您将p值视为后验概率,而并非如此)。重要的是要注意,这并不是一个微妙的哲学区别(正如我认为您在对彩票的讨论中所暗示的那样):对于p值的任何解释都具有巨大的实际意义。

但是,你可以在p值,将让你到你要找的内容进行改造,这就是所谓的局部错误发现率。(正如这篇不错的文章所描述的,它等同于“后错误概率”的常客,因此,如果您愿意,可以这样考虑)。

让我们来看一个具体的例子。假设您正在执行t检验以确定10个数字的样本(根据正态分布)的平均值是否为0(一个样本,两面t检验)。首先,让我们看看有什么p值的分布看起来当平均真的喜欢零,用短[R模拟:

null.pvals = replicate(10000, t.test(rnorm(10, mean=0, sd=1))$p.value)
hist(null.pvals)

在此处输入图片说明

如我们所见,空p值具有均匀分布(在0到1之间的所有点上都可能相等)。这是p值的必要条件:确实,这正是p值的含义!(鉴于null为真,则有5%的机会小于.05,有10%的机会小于.1 ...)

现在让我们考虑替代假设-null为假的情况。现在,这有点复杂:当null为false时,它是“ false”吗?样本的平均值不是0,而是0.5。1?10个?它是否随机变化,有时很小,有时很大?为了简单起见,假设它始终等于.5(但请记住复杂性,稍后将变得很重要):

alt.pvals = replicate(10000, t.test(rnorm(10, mean=.5, sd=1))$p.value)
hist(alt.pvals)

在此处输入图片说明

注意,分布现在不均匀:向0偏移!在您的评论中,您提到了提供信息的“不对称性”:这就是不对称性。

因此,假设您知道这两个分布,但是您正在进行一个新的实验,并且您还事先有50%的可能性认为它为零,而另一种可能性是50%。您得到的p值为0.7。您如何从中以及p值得出概率呢?

您应该做的是比较密度

lines(density(alt.pvals, bw=.02))
plot(density(null.pvals, bw=.02))

并查看您的p值:

abline(v=.7, col="red", lty=2)

在此处输入图片说明

零位密度与替代密度之间的比率可用于计算局部错误发现率:零位相对于替代项越高,则局部FDR越高。这就是假设为空的可能性(从技术上讲,它具有更严格的惯常论者解释,但在这里我们将其简化)。如果值很高,那么您可以做出“零假设几乎可以肯定是正确的”的解释。实际上,您可以将本地FDR设置为.05和.95阈值:这将具有您要查找的属性。(而且,由于本地FDR随p值单调增加,至少如果您做对了,这些将转化为一些阈值A和B,您可以在其中说“

现在,我已经可以听到您在问“那么为什么我们不使用它而不是p值呢?” 两个原因:

  1. 您需要确定测试为空的先验概率
  2. 您需要了解替代方案下的密度。这是非常困难的猜测,因为你需要确定如何大的影响大小和差异可以是,他们是如何经常如此!

p值测试不需要任何一个,而p值测试仍然可以避免误报(这是其主要目的)。现在,它可以在多个假设检验估计这两个值的,当你有成千上万的p值(如每个数千个基因的一个测试:看看本文本文的实例),而不是当你正在做一次测试。

最后,您可能会说:“如果说重复导致p值高于.05的复制必然是假阳性,那么论文是否仍然错误?” 好吧,虽然获得一个p值为0.04和另一个p值为0.06确实并不意味着原始结果是错误的,但实际上这是一个合理的指标。但是无论如何,您可能会很高兴得知其他人对此表示怀疑!您所引用的论文在统计学上有些争议:该论文使用了不同的方法,并且得出了与医学研究有关的p值非常不同的结论,然后该研究遭到了一些著名的贝叶斯主义者的批评(并且反复进行) ...)。因此,尽管您的问题是基于有关p值的一些错误假设,但我认为它确实在您引用的论文中检验了一个有趣的假设。


嗨,大卫。有道理。我将重新措辞我的问题,以确保不会误解该部分,并查看是否仍然存在问题。
Andrew Klaassen 2014年

@David_Robinson:在贝叶斯规则中使用p值作为错误警报率是否正确,并能够得出有关研究可能性和/或无效假设的结论?将优先级设置为50%,然后从那里快速松动?:-)
Andrew Klaassen 2014年

1
是的,令人着迷!您可以将其用于答案吗?但是,当null为真时,p的行为方式与必须假的情况之间存在不对称性,基于从数据中提取的p值,必须给出有关null假设为真的可能性的一些信息。如果真实的零假设产生均匀分布的p值,而真实的非零假设产生偏向0的p值,则拉出ap = 0.01大理石〜必须〜表示您更有可能选择了-空罐实验,即使通过实验没有改变概率。
Andrew Klaassen 2014年

1
@AndrewKlaassen:您可能对“本地错误发现率”的概念感兴趣。这是一个常客主义,等同于null为真的贝叶斯后验概率。它需要两件事:a)零为真的先验概率(有时称为pi0),以及b)对替代假设的密度估计。在多个假设检验中(如果您有成千上万个p值),可以通过查看密度来估计这两个值。如果我有更多时间,可以在答案中加深说明。
大卫·罗宾逊

1
@AndrewKlaassen:参见我的编辑,在这里我详细解释了本地FDR,为什么它是计算值“ A”的方式(尽管在计算A时可能要更改.05),以及为什么很少使用它。无论如何,要澄清一个不完全符合答案的观点:您关于彩票的例子误解了我和其他人一直提出的观点。我们并没有沉迷于“用新信息来改变概率”的思想(贝叶斯主义者和常人对它们的解释):重点是您没有以正确的方式改变它们!
大卫·罗宾逊,

10

将鼠标悬停在任何 是一个伪造的标签),下面是其Wiki的简短摘录。请原谅行距的中断。我认为这很有价值,因为标签摘录可以帮助读者在通读时检查对术语的理解。这些摘录中的某些摘录也可能值得编辑,因此它们也值得公关人员恕我直言。

p>.05 通常意味着不应拒绝 。反过来,或由于以下原因而拒绝空值时,就会出现误报 错误或其他一些异常事件会导致 否则是不可能的(通常是 p<.05)已从 其中null为true。结果与p>.05 所谓的误报似乎反映了对原假设的误解 ing(NHST)。误解在已发表的研究文献中并不少见,因为NHST众所周知是违反直觉的。这是该组织的集会呼吁之一入侵(我支持,但目前还不了解)。直到最近,我一直对像我这样的错误印象进行工作,所以我最衷心的同情。

@DavidRobinson观察到是正确的 p 不是在中null为false的概率 NHST。这(至少)是古德曼(2008)关于 “肮脏的十二个”的误解之一p (另请参见Hurlbert和Lombardi,2009年。在NHST中,p 是个 一个人将以相同的方式抽取任何未来的随机样本,这些样本将表现出一种关系或差异(或其他 如果存在其他影响大小的变种,则正在针对零值进行检验...?)与零值假设至少与一个人测试过得出给定样本的相同人群的差异相同 p值,如果null为true。那是,p给定null时获得样本的概率是多少?它不能反映出空值的可能性–至少不能直接反映出来。相反,贝叶斯方法以其对统计分析的表述而引以为豪,因为统计分析的重点是估计支持或反对证据的证据。给定数据的效果理论,他们认为这是一种更具直觉吸引力的方法Wagenmakers,2007年,其中包括其他优点,同时也保留了有争议的缺点。(为了公平起见,请参见“ 贝叶斯分析的弊端是什么? ”,您也评论了其中可能提供一些不错答案的文章:Moyé,2008;Hurlbert&Lombardi,2009。)

可以说,从字面上说来的零假设通常更有可能是错误的,因为零假设是最常见的影响的字面假设。(有关一些方便的反例,请参见以下答案:“ 大数据集是否不适合假设检验? ”)蝴蝶效应等哲学问题威胁着字面意义。任何此类假设;因此,空值最普遍地用作比较某些非零影响假设的基础。这样的替代假设在收集到数据如果原为真的情况下是不可能的话,可能比原更为合理。因此,研究人员通常会根据反对原假设的证据推断出对另一种假设的支持,但事实并非如此。直接量化Wagenmakers,2007年

你怀疑 是...的功能 ,以及效果的大小和一致性。(见@呱的回答到最近的问题,“ 如何t检验有统计学显著如果平均差几乎为0? ”)我们经常打算请我们的数据的问题是,“什么是效果xy? ” 由于各种原因(包括IMO,统计学上的误解以及其他方面的教育计划不足,尤其是非统计学家传授的知识),我们经常发现自己却提出了一个松散相关的问题:“随机抽取诸如我的数据这样的数据的概率是多少?来自x不影响人口的人群y?” 这分别是效果大小估计和显着性测试之间的本质区别。一个p value仅直接回答了后一个问题,但是一些专业人士(@rpierce可能会为您提供比我更好的清单;请原谅我将您拖入这个清单!)认为研究人员误读了 p经常回答前一个效应大小的问题;恐怕我必须同意。

关于……的含义更直接地回应 .05<p<.95,这是从零值真实的总体中随机抽样数据的概率,它显示出的关系或差异与零值字面描述的关系或差异至少与数据一样宽且一致。 .. <吸入> ...在5–95%之间。可以肯定地说这是样本量的结果,因为增加样本量会提高人们检测较小且不一致的效应量并将其与零效应(例如置信度超过5%)的零效应区分开的能力。但是,小的且不一致的效果在实用上可能不重要(从统计学上讲是重要的 -古德曼(2008年)的另外十二个)。这在很大程度上取决于数据的含义,而统计意义仅在有限程度上涉及到数据本身。请参阅我对以上内容的回答

如果... p> 0.95,则将结果绝对确定为错误(而不是简单地不受支持)是否正确?

由于数据通常代表凭经验的事实观察,因此它们不应为假。理想情况下,只有关于它们的推断才应该面对这种风险。(当然也会发生测量错误,但是该问题在此答案的范围之外,因此,除了在这里提及之外,我将不理会它。)总是存在对null的用处不大的错误肯定推断。至少要等到推断者知道null为真时,才能使用替代假设。只有在相当难以理解的情况下,即零在字面上是真实的,才支持替代假设的推论肯定是错误的……至少,就目前我所能想象的而言。

显然,广泛使用或约定不是认识论或推论有效性的最佳权威。即使是已发布的资源也是容易犯错的。参见例如p值定义中的谬误。您的参考资料Hurlbert和Lombardi,2009年)也提供了关于该原理的一些有趣的解释(第322页):

StatSoft(2007)在其网站上称自己的在线手册“是不列颠百科全书推荐的唯一统计信息互联网资源。” 正如保险杠上所说的那样,对“不信任权威”从未如此重要。[URL明显破损,转换为超链接文本。]

另一个恰当的例子是:《自然新闻》最近发表的一篇文章Nuzzo,2014年中的这个短语:“ P值,证据强度的共同指标……”请参阅Wagenmakers (2007,第787页) “问题3:p值不能量化统计证据” ...但是,@ MichaelLew Lew,2013年不同意您可能会发现有用的方式:他使用p索引似然函数的值。然而,尽管这些公开的资料彼此矛盾,但至少有一个是错误的!(在某种程度上,我认为...)当然,这本身并不像“不可信”那么糟糕。我希望我可以像我一样给Michael加上标签来哄骗他(但是我不确定用户标签在编辑时会发送通知-我认为您在OP中不会这样做)。他可能是唯一可以拯救Nuzzo的人-甚至是大自然本身!帮助我们欧比旺!(请原谅我,如果我的回答表明我仍然无法理解您的工作的含义,无论如何我肯定我都有...) BTW,Nuzzo还提供了一些有趣的自卫和反驳Wagenmaakers的“问题3”:请参阅Nuzzo的“可能原因”Goodman,2001,1992Gorroochurn,Hodge,Heiman,Durner和Greenberg,2007。这些可能包含您真正要寻找的答案,但我怀疑我能告诉您。

回复:您的多项选择题,我选择d。您可能在这里误解了一些概念,但是如果您这样做的话,您肯定不是一个人,我会把判断力留给您,因为只有您知道您的真实信念。错误的解释意味着一定程度的确定性,而提出问题则意味着相反的事实,不幸的是,对不确定性的冲动是值得称赞的,并且很不幸地并非无处不在。人性的这一问题使我们的公约的不正确性令人遗憾地缺乏无害,并且值得抱怨,例如这里提到的那些。(部分感谢您!)但是,您的建议也不完全正确。

一些有关问题的有趣讨论 p我参与过的值出现在这个问题中:容纳根深蒂固的p值视图。我的答案列出了一些参考资料,您可能会发现这些参考资料有助于进一步理解解释性问题和替代方法p价值观。请注意:我自己还没有撞到这个兔子洞的底部,但是我至少可以告诉你它非常深。我自己仍在学习(否则我怀疑我会从更贝叶斯的角度来看[编辑];或者从NFSA的角度来看!Hurlbert&Lombardi,2009年,我充其量是一个薄弱的权威,我欢迎其他人可能对我在这里所说的内容进行任何更正或详述。我只能得出的结论是,可能有一个数学上正确的答案,很可能是大多数人都弄错了。正确的答案当然并不容易,如以下参考资料所示...

PS根据要求(有点...我承认我真的只是在解决这个问题,而不是继续努力),这个问题是有时(...p给定null:“ 为什么在null假设下p值均匀分布? ” @whuber的注释特别引起关注,它引起了一类例外。正如整个讨论中的某些事实一样,我没有100%遵循论点,更不用说它们的含义了,所以我不确定p分布均匀性实际上是例外。恐怕会进一步造成根深蒂固的统计混乱。

参考文献

-古德曼(SN)(1992)。关于复制,P值和证据的评论。医学统计学,11(7),875–879。
-古德曼(SN)(2001)。关于P值和贝叶斯:一个适度的建议。流行病学,第12卷第 3期,第295-297页。取自http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf
-古德曼(2008)。一打烂:十二个P值误解。血液学研讨会,45(3),135–140。取自http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf
-Gorroochurn,P.,Hodge,SE,Heiman,GA,Durner,M.,&Greenberg,DA(2007)。非重复关联研究:要复制的“伪失败”?医学遗传学,9(6),325–331。从http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html检索。
-SH.Hurlbert和CM的Lombardi(2009)。Neyman-Pearson决策理论框架的最终崩溃和neoFisherian的兴起。Annales Zoologici Fennici,46(5),311–349。取自http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf
-MJ卢(2013)。对P或不对P:关于P值的证据性质及其在科学推理中的位置。arXiv:1311.0081 [stat.ME]。从...获得http://arxiv.org/abs/1311.0081
-洛杉矶,莫耶(2008)。贝叶斯在临床试验中:睡着了。医学统计学,27(4),469–482。
-R.Nuzzo(2014年2月12日)。科学方法:统计错误。Nature News,506(7487)。取自http://www.nature.com/news/scientific-method-statistical-errors-1.14700
-Wagenmakers,EJ(2007)。p值普遍问题的实用解决方案。心理研究与评论,14(5),779–804。取自http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf


我仍在为您提供详尽的答案(感谢),但是您提到“贝叶斯入侵”使我想到了“临床试验中的贝叶斯:转换时睡着了”,此处转载为第12章,我也慢慢地缠着我的头。
安德鲁·克拉森

“您到达的页面无法查看或达到了该书的查看限制” ...?
Nick Stauner 2014年

1
那真不幸。如果您拥有日记访问权限,也可以在此处找到。搜索短语“贝叶斯人现在正在打破临床试验中的传统障碍”也可以帮助您。
Andrew Klaassen 2014年

1
Neyman-Pearson决策理论框架的最终崩溃和neoFisherian的兴起也包含了有趣的p值历史以及对贝叶斯分析在研究中的应用的攻击。我不能说我对它的评价足够了解,但我认为至少要意识到对当前热情的纠正措施是件好事。
Andrew Klaassen 2014年

1
@NickStauner刚刚找到此讨论。如果存在一组不同意的帐户,则至少一个帐户没有必要出错。它们可能基于不同的模型。[如果您是游戏人,则应该阅读比尔·汤普森(Bill Thompson)的著作《统计证据的本质》(The Nature of Statistics Evidence)(2005)。尽管如此,我的说法肯定是正确的;-)(尽管只是今天早上再次遭到期刊拒绝。)我找到了Nuzzo的论文,粗心,可能会产生误导。
Michael Lew 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.