p = 5.0%有意义吗?


14

今天有人问我,是否认为p值为0.05(精确)是有意义的(给定的alpha = 5%)。我不知道答案,而Google给出了两个答案:(a)如果p小于5%,则结果显着;(b)如果p小于5%或等于5%,则结果显着。

当然,这些网站都没有引用任何人。为什么要选一个-这是常识,而5%是任意的。但这无助于我告诉我的学生要记住的事情。

因此,这是我关于检验假设的绝望问题:如果p值恰好是alpha,我认为结果是否重要?在这种情况下,权威引用是什么?

非常感谢你

Answers:


19

撇开一些实际问题(例如,在多大程度上是任意的),显着性水平和p值的定义使该问题的答案明确。α

正式而言,拒绝规则是您在p = α拒绝p=α

确实只对离散情况有意义,但是在那种情况下,如果在时不拒绝,则您的I型错误率实际上就不会是αp=αα

(就我而言,没有“权威性”的引用;您确实需要掌握Neyman-Pearson和Fisher的假设检验方法,并且随着时间的流逝而发展。)

有许多好的统计资料可以正确描述假设检验。

相关的Wikipedia文章 * 的第一句话中正确给出了p值的定义:

p值是假设零假设是真实的,获得至少与实际观察到的检验统计量一样极端的概率。

*(不,维基百科不是权威,我只是说定义是正确的)

为简单起见,让我们坚持点空值;它可以使问题得以解决,而又不会给其他问题带来麻烦。

现在,显着性水平是所选的I类错误率。这是您选择零假设时为真的比率。也就是说,这是您应该拒绝null的时间比例。现在考虑一个离散分布测试统计-唯一的一次p正是ααp α实际上是可能**。(通常情况下,实际的Alpha值与5%之类的近似值也会有所不同。)

**好吧,我想我的讨论仅限于纯离散或纯连续分布的测试统计量。在混合情况下,您可以弄清楚我的离散讨论如何应用(在适用情况下)。

例如,考虑一个的双尾符号测试。达到5%的最接近的显着性水平是4.904%。所以我们选择α = 4.904 n=17α=4.904%(或更准确地说,是)。137500217

所以当为真时,如果我们在p = α时拒绝,拒绝率是多少?H0p=α多少?我们可以解决这个问题。它是4.904%- 我们选择的α

另一方面,当为真时,如果p = α时不拒绝,拒绝率是多少?我们可以解决这个问题。只有1.27%小于α。那不是我们报名参加的测试!H0p=αα

也就是说,如果在拒绝区域中,我们的测试(很明显!)具有所需的属性。p=α

[现在让我们考虑一下您的情况。您的p值实际上是5%吗?我敢打赌,由于几种不同的原因,这并非完全如此。但是无论如何,您可以正式声明是拒绝。]p=α

如果您先描述您的拒绝规则并证明(如果满足假设)它具有所需的显着性水平,那么可能就不需要参考。

拒绝规则仅是关于测试统计值将导致您拒绝H 0的陈述H0。这等效于定义拒绝区域(有关信息,请参见Casella和Berger,《统计推断》第346页,以简单的术语定义“ 拒绝区域”)。

同一本书用与维基百科不同的术语定义了p值(p364)(但含义相同)-也就是说,对于给定的数据集,p值定义为最小 ,它将导致拒绝null。α

(如果您使用的是其他版本,则页码可能会发生变化,但是它具有索引,因此您可以查找条款;请注意,您可能需要查看“假设检验”下的列表或索引中的类似内容才能找到“拒绝区域”)

嗯,让我们尝试另一本现成的书。Wackerly,《 Mendenhall&Scheaffer 数理统计及其应用》(第5版)在p412上定义了拒绝区域,并在p431上定义了p值(与C&B相同的清晰度)。


谢谢。请允许我回答“统计的实际用户”这一愚蠢的问题:除维基百科外,您在何处可以找到此定义和/或拒绝规则?我筛选了一些统计书籍,但没有找到段落。可能正在寻找错误的单词...
BurninLeo

看到更新的答案
Glen_b-恢复莫妮卡2013年

你很棒!当然,您知道这一点,但是有时候还是值得一说。非常感谢!
BurninLeo

1
(+1)很好的答案。
chl

2

我在早期的生物统计学课上从一位教授那里学到的一个有趣的表白是,0.05的显着性水平更多的是通过共识达成的,而不是黄金真理。从那以后,我看到了那些具有0.05显着性水平的文献,例如“接近”仍然是该研究的一个惊人发现,而且我还听到有人认为0.05显着性水平可能不适用于所有研究领域。话虽如此,我发现点估计和置信区间比有意义的水平提供更多信息。这是一篇有趣的文章(无论如何对我来说)。


感谢您提供参考@ user2300643。感谢您避免访问的经济障碍!
doug.numbers 2013年

还有的5%等显着性水平的起源的一个有趣的讨论在这里
Glen_b-恢复莫妮卡

0

通常,p的值是为达成共识而设置的(如前所述)。要真正能够说出有意义的事情,我们必须找到与效果大小,样本大小以及数据对它的严格程度相对应的p值。这称为功率分析(它是统计信息中的一个子字段)。许多人要么不知道,要么根本就不使用它,因为它并不简单。这并不是说它很好。我们应该始终进行此类研究,以得出确实有意义的推论。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.