“ p值”的确切值是否没有意义?


31

早在2009年,我就曾与统计学家进行过讨论,他说p值的确切值无关紧要:唯一重要的是它是否有意义。即一个结果不能比另一个结果更重要;例如,您的样本来自同一人群,也可能来自不同人群。

我对此有些疑惑,但我也许可以理解其意识形态:

  1. 5%的阈值是任意的,即p = 0.051并不重要,而p = 0.049则不应真正改变观察或实验的结论,尽管一个结果很重要而另一个结果不重要。

    我之所以提出这一点,是因为我正在研究生物信息学理学硕士学位,并且与该领域的人们交谈之后,似乎有坚定的决心要为他们所做的每组统计数据获取准确的p值。例如,如果他们“实现” p <1.9×10 -12的p值,则他们想证明其结果的显着性,并且该结果具有丰富的信息。通过以下问题举例说明了此问题:为什么我的p值不能小于2.2e-16?,因此他们希望记录一个值,该值指示仅凭偶然这将小于万亿分之一。但是,在证明这一结果发生在万亿分之一以下而不是十亿分之一中,我看不出有什么区别。

  2. 那么我可以理解,p <0.01表明发生这种情况的可能性不到1%,而p <0.001表明这样的结果比上述p值更不可能发生,但是您得出的结论应该是完全不同?毕竟它们都是重要的p值。我想想想记录确切的p值的唯一方法是在Bonferroni校正过程中,由于比较次数的原因,阈值会发生变化,从而减少了I型错误。但是,即使如此,为什么还要显示一个比阈值有效值小12个数量级的p值?

  3. 而且,应用Bonferroni校正本身不是也有些随意吗?从某种意义上说,最初的校正被认为是非常保守的,因此可以进行其他校正,以选择观察者可用于其多次比较的显着性水平。但是正因为如此,根据研究人员想要使用的统计数据,事情并不是变得很重要就本质上不是可变的。统计数据应该这么开放吗?

总之,统计数据是否应该主观性更好(尽管我猜想它需要主观性是多变量系统的结果),但最终我需要澄清一下:某事是否比别的事重要?而且,p <0.001是否足以记录准确的p值?



4
松散相关:在何时使用Fisher和Neyman-Pearson框架的问题的回答中,我认为每个框架都有其作用。为了保持我的立场,我想说确切的p值在NP框架中并不重要,但在Fisherian框架中可以(在所报告的数字位数实际上是可靠的范围内)。
gung-恢复莫妮卡

当p值通常是对错误问题的正确答案时,令人惊讶的是,一些统计学家想要坚持p值的概念。假设未在任何统计软件包中实现p值。我怀疑人们会写自己的代码来获取它。
概率

3
@probabilityislogic-在排列测试中减少了我的统计工作,在这种情况下,p值是一种非常自然的思考方式,因此,如果它们不是,我可能会编写自己的代码来获取它们……事实上,在我很少进行测试的极少数情况下,它们通常是用于某些非典型情况,需要模拟或某种形式的重采样,我发现我实际上倾向于这样做。我倾向于说假设检验通常回答错误的问题。在极少数情况下,我认为他们有价值(尤其是,其他人不受我的显着性水平的约束)。
Glen_b-恢复莫妮卡2014年

@glen_b-我对p值的问题是,不要对任何假设检验单独提供“答案”,因为它们会忽略其他选择。如果只限于一个数,则数据的似然性值比p值(以及与p相同的问题)要好得多。这样,人们就不受您选择的测试统计量的约束(除了不受您的重要性阈值约束)。
概率

Answers:


24
  1. 类型1 /错误拒绝错误率并不是完全任意的,但是是的,它很接近。它比更可取,因为它的认知复杂度较低(人们喜欢整数和5的倍数)。尽管可能有些过时了,但在怀疑主义和实用性之间是一个不错的折衷方案– 如果必须有标准,现代方法和研究资源可能会要求较高的标准(即较低的值)Johnson,2013年α = 0.051 pα=.05α=.051p

    IMO认为,比选择阈值更大的问题是,在没有必要或没有帮助的情况下,通常会未经审查就选择使用阈值。在必须做出实际选择的情况下,我可以看到它的价值,但是许多基础研究并不需要仅仅因为给定样本的证据不足以放弃证据而放弃拒绝该证据的可能性的决定。几乎任何合理的阈值。然而,该研究的许多作者都觉得有义务按照惯例这样做,并且对此感到不舒服,他们发明了“边际”意义之类的术语,以引起人们的注意,以免引起注意,因为他们的听众经常不在乎 s。如果您在其他问题看这里围绕0.05 p pp.05p值解释,您会发现关于二进制值/ 有关null的决定对值的解释存在很多分歧。pfail toreject

  2. 完全不同–不。有意义的不同-也许。显示值小得离谱的一个原因是暗含有关效果大小的信息。当然,出于几个技术原因,仅报告效果的大小会更好,但是作者经常没有考虑此替代方法,不幸的是,听众可能对此也不太熟悉。在没有人知道如何报告效果大小的零假设世界中,最常见的猜测是较小的表示较大的效果。这个零假设世界无论在何种程度上都比现实世界更接近现实,因此出于这个原因,报告精确的可能有一定的价值。请理解这一点纯粹是魔鬼的提倡...p pppp

    通过在这里进行非常相似的辩论,我了解到的精确的另一个用途是作为似然函数的索引。请参阅Michael Lew的评论和文章Lew,2013年),其链接指向我的答案“ 适应p值的根深蒂固的观点 ”。p

  3. 我认为Bonferroni校正的确不是任意的。它纠正了我认为我们同意至少接近完全任意的阈值,因此它不会失去任何基本的任意性,但我认为它不会给方程式增加任何随意性。更正是以逻辑,务实的方式定义的,朝着更大或更小的更正的微小变化似乎需要相当复杂的论据,以证明它们比任意更合理,而我认为争辩的调整如果没有必须克服其中任何深具吸引力却又简单的逻辑。α

    如果有的话,我认为值应该更易于解释!即,空值是否真的比替代值更有用,应该不仅取决于反对它的证据,还包括获取更多信息的成本以及由此获得的更精确知识的增加价值。从本质上讲,这是Fisher的无门槛想法,即AFAIK,这就是一切的开始。请参阅“ 关于p值,为什么选择1%和5%?为什么不选择6%或10%?p

如果fail to/ reject危机不是在零假设从一开始就被迫的,那么统计显着性的更连续的理解肯定不会承认的不断增加意义的可能性。在统计意义上的二分法中(我认为有时将其称为Neyman-Pearson框架;参见Dienes,2007年),不,任何显着的结果都与下一个显着一样-不多也不少。这个问题可能有助于解释该原理:“ 为什么在零假设下p值均匀分布? ”至于有多少个零是有意义的并且值得报告,我建议Glen_b回答这个问题:“ 小应该怎么做?p-报告价值?(为什么R在2.22e-16上设置最小值?) – –比您在Stack Overflow上链接的那个问题的版本的答案要好得多!

参考
-Johnson,VE(2013)。修订的统计证据标准。美国国家科学院院刊,110(48),19313–19317。取自http://www.pnas.org/content/110/48/19313.full.pdf
-MJ卢(2013)。对P或不对P:关于P值的证据性质及其在科学推理中的位置。arXiv:1311.0081 [stat.ME]。取自http://arxiv.org/abs/1311.0081


3
+1,这里有很多好的想法。虽然有1个小问题,但关于#1,我想说我们通常应该优先选择较低的标准(即较高的 p值)。通常很难获得足够的数据来拥有良好的研究能力。我为想要研究罕见病的医生进行了许多功效分析。他们说,“这确实是一个未充分研究的问题,我有一个新方法的主意,在未来两年内,我们可能会让50名患者接受此治疗”,我说“您的力量将达到45%”,并且该项目弃。如果p必须小于或等于0.05,则罕见疾病将继续被研究。
gung-恢复莫妮卡

2
@gung:我完全同意。我引用Johnson(2013)只是因为我了解他的论点,而不是因为我同意他的观点:) IMO,它有一个对您描述的问题不灵活且不敏感的常规标准(这与我在第二部分中的观点相呼应对#3)的响应是核心问题之一,向上或向下调整它都无法解决。当有一个坚硬和快速的没有真正的需要fail to/ reject决定,我认为这是更好的做的多么的可贵一个人的证据判断是基于比给出的空样品的概率等等。
Nick Stauner 2014年

4
精彩的讨论。有趣的是,相关的文章是Gelman和Stern的“有意义”和“不重要”之间的差异本身在统计上并不重要(后来发表于American Statistician,2006),我不会说将p的值描述为必然毫无意义,但在强调比较p值(而不是效果估计)方面,要特别注意。盖尔曼(Gelman)在他的博客上经常讨论与此相关的问题。
Glen_b-恢复莫妮卡2014年

2
对于2,我认为应该强调的是,不应将值用作关联或效果的度量。推论测试的一个理想属性是一致性,即当样本数量达到无穷大,测试的功效变为1或值变为0时。因此,不应使用值来描述效果/关联。p pppp
bdeonovic

2
似乎Gelman 还在他的网站上提供了指向已发表论文pdf的链接。
Glen_b-恢复莫妮卡2014年

13

在我看来,如果一个值有意义,则其确切值就是有意义的。

p值回答了这个问题:

如果在从中随机抽取该样本的总体中,零假设是正确的,那么获得至少与样本中的统计值一样极端的检验统计量的概率是多少?

该定义如何使精确值变得毫无意义?

这与关于p的极值的问题不同。包含p为0的语句的问题在于我们在极端情况下如何估计p。由于我们做得不好,因此使用p的精确估计是没有意义的。这与我们不说p = 0.0319281010012981的原因相同。我们没有把握知道这些最后的数字。

如果p <0.001而不是p <0.05,我们的结论是否应该有所不同?或者,使用精确数字,如果p = 0.00023而不是p = 0.035,我们的结论是否应该有所不同?

我认为问题在于我们通常如何得出关于p的结论。我们根据任意水平说“重要”或“不重要”。如果我们使用这些任意级别,那么是的,我们的结论将有所不同。但这不是我们应该考虑这些事情的方式。我们应该关注证据的重要性,而统计检验只是该证据的一部分。我将(再次)插入罗伯特·阿伯森的“魔术准则”:

幅度-效果有多大?

清晰度-陈述的精确度如何?有很多例外吗?

普遍性-适用于哪些人群?

有趣-人们会关心吗?

信誉-有道理吗?

重要的是所有这些的结合。请注意,Abelson根本没有提及p值,尽管它们确实是幅度和清晰度的混合体。


5
我们通常不会这么说,但是从技术上讲,p值仅反映了以下情况:“如果假设为零,则我们的样本估计值至少与样本中样本的统计值极端相似”。的总体方差是完全准确的,并且我们满足测试的所有其他假设。通过自举在一些p值周围放置一些置信区间,我想您会经常发现我们对百分之一的位置也不是很自信。
russellpierce 2014年

2
简而言之,它是如此复杂,以至于当我们确实应该(如您暗示)回到MAGIC时,尝试量化p值会适得其反。
russellpierce 2014年

我不得不承认,我没有想到将置信区间(或可信区间)放在p值附近。我想知道在这方面做了多少工作?
彼得·弗洛姆

2
我没有引用方便,但我知道可以按照这些原则进行工作-无论如何,这是一项学术性的工作,因为您可以将置信区间的置信区间设为几乎无限制的置信区间(最大根据任何数据集合理估算的方差)。我曾与@Nick Stauner进行过漫长而详尽的对话。在对话中,他可能还会拿出一些文章,摆到桌上。
拉塞尔皮尔斯

1
我记得没有关于p值的置信区间的信息,但是我可能会略过这些部分。我也不
会对
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.