较小的p值是否更有说服力?


31

我一直在阅读,1型错误率,显着性水平,功效计算,效应大小以及Fisher与Neyman-Pearson的争论。这让我感到有些不知所措。我为案文感到抱歉,但是在继续讨论实际问题之前,有必要概述一下我对这些概念的当前理解。p


根据我收集到的信息,值只是惊喜的度量,假定原假设为真,则获得结果的可能性至少为极端。费舍尔原本打算将其作为一项连续措施。p

在Neyman-Pearson框架中,您预先选择一个重要级别,并将其用作(任意)截止点。显着性级别等于1类错误率。它由长期运行频率定义,即,如果您要重复进行1000次实验,并且原假设为真,那么由于采样的可变性,其中约有50个实验会产生显着效果。通过选择显着性水平,我们以一定的概率防范这些误报。传统上,不会出现在此框架中。P

如果我们发现一个的0.01 -值但这并不意味着1型错误率是0.01,1型错误陈述先验的。我相信这是Fisher与NP辩论中的主要论据之一,因为通常报告为0.05 *,0.01 **,0.001 ***。这可能会误导人们说效果是在某个p值而不是某个显着性值上显着的。ppp

我还意识到p值是样本大小的函数。因此,它不能用作绝对测量。较小的p值可能表示在大型样品实验中产生较小的无关影响。为了解决这个问题,在确定实验的样本量时执行功效/效应量计算很重要。P告诉我们是否有影响,而不是影响有多大。参见Sullivan 2012

我的问题: 我该如何调和p值是一种惊喜度量(更小=更具说服力),同时又不能将其视为绝对度量的事实?

我感到困惑的是:我们能否对小p值比大p值更有信心?从渔业的角度来说,我会说是的,我们感到更加惊讶。在NP框架中,选择较小的显着性水平意味着我们将更加严格地防范误报。

但另一方面,p取决于样本量。它们不是绝对的措施。因此,我们不能简单地说0.001593 比0.0439 有意义。然而,这在费舍尔的框架中将隐含着这样的含义:我们会对如此极端的价值感到惊讶。甚至有关于“ 高度重要 ”一词用词错误的讨论:将结果称为“高度重要”是否错误?

我听说,某些科学领域的p仅在小于0.0001时才被认为是重要的,而在其他领域,大约0.01的值已经被认为具有很高的意义。

相关问题:


同样,不要忘记“ p”值不会告诉您有关理论的任何信息。最热心的捍卫者甚至承认这一点:统计意义的准则:原理,有效性和效用。小L。行为与大脑科学(1998)21,169–239数据在转化为证据时会被解释。需要列举一种解释所基于的假设,然后在可能的情况下进行检查。正在测量什么?
Livid

2
+1,但我鼓励您集中讨论问题,并删除附带的问题。如果您感兴趣为什么有人认为置信区间比p值更好,请询问一个单独的问题(但请确保从未问过此问题)。
变形虫说恢复莫妮卡

3
除此之外,您的问题又不是“ 为什么较低的p值没有更多的证据证明无效”的重复你看到那个线程了吗?也许您可以将其添加到帖子末尾的列表中。另请参见类似的问题将p值相互比较有什么意义?,但我不建议使用该主题,因为接受的答案存在恕我直言不正确/误导性(请参阅评论中的讨论)。
变形虫说恢复莫妮卡


2
感谢您的链接,@ Glen_b; 我对Gelman&Stern的论文非常了解,并且经常自己引用它,但是从未见过这份2013年的论文或之前的讨论。但是,我想提醒OP在他/她的问题中解释Gelman&Stern。G&S提供了一个很好的例子,其中两项研究估计效果分别为和;在一种情况下,,在另一种情况下,,但估算值之间的差异并不显着。要牢记这一点很重要,但是如果现在按照OP进行研究,我们会问第一项研究是否更有说服力,我当然会说是的。25±1010±10p<0.01p>0.05
变形虫说恢复莫妮卡

Answers:


18

较小的是否“更有说服力”?是的,他们当然是。p

在Fisher框架中,值是针对原假设的证据数量的量化。证据或多或少有说服力。p值越小,则越有说服力。请注意,在任何给定的具有固定样本大小n的实验中,p值都与效果大小单调相关,如@Scortchi在其答案(+1)中很好地指出。因此,较小的p值对应较大的效果大小;当然,它们更令人信服!ppnpp

在Neyman-Pearson框架中,目标是获得一个二元决策:证据是“重要的”还是没有证据。通过选择阈值,我们保证不超过α个误报。请注意,在查看相同数据时,不同的人可能会想到不同的α。也许当我从一个我怀疑的领域读过一篇论文时,即使作者确实称其为“有意义”,我个人也不认为p = 0.03是“显着”的结果。我的个人α可能设置为0.001左右。显然,报告的p越低αααp=0.03α0.001p值,更怀疑的读者将能够说服!因此,再次,较低的更具说服力。p

当前的标准做法是将Fisher和Neyman-Pearson方法结合起来:如果,则结果称为“显着”,并且[准确或近似地]报告了p值,并将其用作令人信服的量度(通过将其标记为带有星星,使用“高度有意义”的表达方式,等等);如果p > α,则结果称为“不重要”,仅此而已。p<αpp>α

这通常被称为“混合方法”,实际上是混合的。有人认为这种混合是不连贯的。我倾向于不同意。为什么同时做两个有效的事情是无效的?

进一步阅读:


1
(+1)但请参阅Michael Lew论文的第4.4节:有些人宁愿将证据量与似然性等同,而不是与p值等同,当比较来自不同采样空间的实验的p值时,这会有所不同。因此,他们谈论“索引”或“校准”证据/可能性。
Scortchi-恢复莫妮卡

抱歉,我的意思是更准确地说,在这种观点下,参数可能针对不同值的相对“证据”(或“支持”)是针对观察数据评估的似然函数之比。因此,在Lew的示例中,无论抽样方案是二项式还是负二项式,六次抛掷中的一个头都是反对零假设的相同证据。但是p值有所不同-您可能会说,在一个抽样方案下,您不太可能会收集大量针对零值的证据。(当然,“证据”一词的权利也与“重大”一样,...
斯科特基-恢复莫妮卡

...尚未确立)。
Scortchi -恢复莫妮卡

嗯,非常感谢您对本节的关注。我之前读过它,但显然错过了它的重要性。我必须说,目前我对此感到困惑。Lew写道,不应通过考虑停止规则来“调整” p值。但是我看不出他的公式5-6有任何调整。“未调整的” p值是什么?
变形虫说恢复莫妮卡

1
@Scortchi:嗯。我真的不明白为什么这些p值之一是“已调整”的,而另一个不是。反之亦然?在这里,我完全不相信Lew的论点,甚至我也不完全理解。考虑到这一点,我发现了Lew在2012年提出的关于似然原理和p值的问题,并在此处提出了答案。关键是,不需要不同的停止规则即可获得不同的p值。可以简单地考虑不同的测试统计数据。也许我们可以继续在那里进行讨论,谢谢您的投入。
变形虫说恢复莫妮卡

9

我不知道较小的p值“更好”,或者我们对它们“更自信”是什么意思。但是,如果我们相信原假设,那么以p值作为衡量我们应该对数据感到惊讶的程度似乎很合理;p值是您选择的测试统计量的单调函数可以在您感兴趣的方向上测量零假设的差异,并根据相关的抽样程序或随机分配的实验处理方法,针对其性质对其进行校准。“重要性”已成为一个技术术语,是指p值高于或低于某些指定值;因此,即使是那些对指定显着性水平以及不接受或拒绝假设都不感兴趣的人,也倾向于避免使用诸如“高度重要”之类的短语-仅仅是遵守惯例。

关于p值对样本量和效应量的依赖性,可能会引起一些混淆,因为例如,对于认为硬币很公平的人来说,似乎每1000掷中有474头比10便有2头更令人惊讶在前一种情况下,样本比例仅与50%略有差异-但p值大致相同。但是,对与错都不承认学位。p值正在执行要求的工作:通常,参数的置信区间实际上是要评估效果的精确程度及其估计大小的实际或理论重要性的条件。


1
+1。我认为问题出在哪里:较小的p值是否更令人信服-这就是我如何理解标题中的“更好”(总的来说,如果OP着力解决问题,这个问题将大有裨益)?如果得到p = 0.000004,则在两种情况下都可能将结果称为“显着”,但在后一种情况下,它们是否更具说服力?将“星星”放在p值附近的做法是假定它们是p;是吗 (这本质上是在询问费舍尔和内曼·皮尔森之间经常受到批评的“混合动力”;就我个人而言,我对此没有任何问题。)p=0.04p=0.000004
阿米巴说《恢复莫妮卡》

1

感谢您的评论和建议的阅读。我还有更多时间来思考这个问题,我相信我已经设法隔离了我的主要困惑来源。

  • 最初,我认为将p值视为惊喜度量与声明这不是绝对度量之间存在二分法。现在,我意识到这些陈述不一定彼此矛盾。与同一实验的其他假设结果相比,前者使我们对观察到的效果的极端性(甚至不相似?)充满信心。后者仅告诉我们在一个实验中可能被认为具有说服力的p值,而在另一个实验中可能根本不令人印象深刻,例如,如果样本大小不同。

  • 某些科学领域利用强p值的不同基线这一事实可能反映了常见样本数量(天文学,临床,心理实验)的差异和/或试图在p值中传达效应量值。但是后者是两者的错误合并。

  • 重要性是根据实验前选择的Alpha进行的是/否问题。因此,p值不能小于另一个p值,因为它们小于或大于所选的显着性水平。另一方面,较小的p值将比较大的p值更具说服力(对于相似的样本量/相同的实验,正如我在第一点中提到的)。

  • 置信区间固有地传达了效果大小,使它们成为防范上述问题的理想选择。


0

p值不能表示惊讶,因为它仅是null为真时的概率度量。如果null为true,则p的每个可能值都是相同的。在决定拒绝null之前,您不会对任何p值感到惊讶。一旦确定存在效果,p值的含义就会消失。有人只是将其报告为相对较弱的归纳链中的一环,以证明是否拒绝零。但是,如果被拒绝,它实际上将不再具有任何意义。


+1为“当null为true时,则每个p值都可能相等”的事实,但是,我认为这仅适用于连续随机变量?

请注意,我说过,p的每个“可能”值都是同等可能。因此,对于谨慎的或连续的变量,这是正确的。使用离散变量时,可能值的数量较少。
约翰

H0

我相信主要答案表明这不是问题。分布看起来不均匀的原因是因为可能的p值间隔不相等。格伦甚至称其为准制服。我猜想,对于某些小Ns的二项式数据进行非常稀疏的测试,则特定p值的概率可能不相等,但如果您考虑给定范围内p值的概率,则该概率将更接近于均匀。
约翰

1
H0:μ=0.5p=0.0000000004H0:μ=0.45p=0.0000000001μ=0.45
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.