关于p值,为什么是1%和5%?为什么不6%或10%?


80

关于,我想知道为什么1%和5%是的黄金标准"statistical significance"。为什么不使用其他值,例如6%或10%?

这是否有一个基本的数学原因,或者这仅仅是广泛使用的惯例?


2
如果每个人都有十二根手指怎么办?我们将以12为基数,而不是以10为基数。这意味着“ 1%”将是1/144或0.0069444444。
Contango

Answers:


77

如果您查看下面的参考资料,尽管有一些共同的元素,但您会发现背景变化很大。

这些数字至少部分是基于费舍尔的一些评论,他说

(在讨论1/20水平时)

将这一点作为判断偏差是否被认为是重大的极限是方便的。因此,超过标准偏差两倍的偏差被正式认为是重大的

Fisher,RA(1925年),《研究人员的统计方法》第1页。47

另一方面,他有时更广泛:

如果二十分之一的赔率似乎还不够高,我们可能会(如果我们更喜欢)以五十分之一(2%的点)或一百分之一(1%的点)来画线。就个人而言,作者倾向于将显着性标准定为5%,而完全忽略所有未能达到此水平的结果。仅当经过适当设计的实验很少能够给出如此重要的意义时,才应将科学事实视为实验确定的事实。

Fisher,RA(1926) 现场实验的安排
农业部学报,p。504

费舍尔还用了5%的价格作为其中一本书的表-但他的其他大多数表的显着性水平差异更大

他的一些评论建议在不同情况下采用或多或少严格的方法(即较低或较高的alpha值)。

上面的这种讨论导致趋向于生成集中于5%和1%显着性水平的表(有时与其他表,例如10%,2%和0.5%),以使用其他“标准”值。

但是,在本文中,Cowles和Davis建议使用5%(或至少接近5%)的使用范围比Fisher的评论要远。

简而言之,我们使用5%(在较小程度上为1%)的做法很随意,尽管显然很多人似乎认为,对于许多问题,他们处于正确的状态。

完全没有理由使用任何特定值。

其他参考:

Dallal,Gerard E.(2012)。统计实践小手册。 - 为什么0.05?

斯蒂格·斯蒂格勒(2008年12月)。“渔民和5%的水平”。机会21(4):12. 在此处可用

(在他们之间,您有一定的背景知识-看起来他们之间确实存在一个很好的理由,可以考虑至少在5%的总体水平(例如2%至10%)中的显着性水平在一会儿。)


36

我必须给出一个非答案(与此处相同):

“……当然,上帝爱.06几乎和.05一样多。是否有任何疑问,上帝认为支持或反对null的证据强度是p大小的相当连续的函数?” (第1277页)

Rosnow,RL和Rosenthal,R.(1989)。统计程序和心理学中知识的证明。美国心理学家,44(10),1276-1284。pdf格式

本文包含有关此问题的更多讨论。


9
那么0.055呢?:)
nico

33
@nico没有人喜欢0.055
Fomite

18

我相信这5%会有一些潜在的心理。我不得不说我不记得我从哪里学到的,但是这是我以前与每个本科生入门级课程一起做的练习。

想象一下,一个陌生人在一家酒吧里接近您,并告诉您:“我有一个偏见的硬币,产生正面的机会多于产生正面的收益。您想从我这里购买一个硬币,以便与好友打赌并以此赚钱吗?” 您毫不犹豫地同意看一眼,然后掷硬币10次。问题:要说服它有偏见,它必须走多少次?

然后,我举手示意:谁会相信如果分红比是5/5,硬币会有偏差吗?4/6?3/7?2/8?1/9?0/10?好吧,前两三个不会说服任何人,而最后一个可以说服所有人。2/8和1/9可以说服大多数人。现在,如果您查找二项式表,则2/8为5.5%,1/9为1%。QED。

n

在另一个答案中,Glen_b 引用了Fisher的讨论,讨论是否应根据问题的严重程度来修改这些不可思议的数字,因此请不要使它“对您姐姐的白血病有新的治疗方法,但它可以治愈她的白血病3个月或3天之内杀死她,所以让我们掷几枚硬币” –就像臭名昭著的xkcd漫画一样愚蠢,连Andrew Gelman都不喜欢。

χ2 测试比例及其功效。


3
魔术师通常可以控制硬币翻转。统计学家-数学家-魔术师(根据口味而变)Persi Diaconis对此颇有名气(还有很多其他事情)。
Nick Cox

@StasK-几年前,我问了一个与您上面第二段类似的问题。这里的链接:stats.stackexchange.com/questions/7036/...
bill_080

账单,您实质上是在问电源。这个问题解决了测试的水平。
StasK

9

费舍尔从4.56%舍入了5%,这对应于“曲线的尾部区域超出平均值加3或减3可能的误差”(Hurlbert和Lombardi,2009)。

故事的另一个元素似乎是复制带有批判性赞词的桌子(Pearson等,1990; Lehmann,1993)。皮尔森未授权费舍尔使用他的桌子(可能是由于皮尔森对自己的出版物进行了营销(Hurlbert和Lombardi,2009年)以及他们之间关系的问题性)。

Hurlbert,SH,和Lombardi,CM(2009年10月)。Neyman-Pearson决策理论框架的最终崩溃和neoFisherian的兴起。在《 Annales Zoologici Fennici》(第46卷,第5期,第311-349页)中。芬兰动植物出版社

Lehmann,EL(1993)。检验假设的Fisher,Neyman-Pearson理论:一种理论还是两种?美国统计协会杂志,88(424),1242-1249。

Pearson,ES,Gosset,WS,Plackett,RL和Barnard,GA(1990)。学生:威廉·西利·戈塞特(William Sealy Gosset)的统计传记。美国牛津大学出版社。

参见:Gigerenzer,G。(2004)。无忧的统计。社会经济杂志,33(5),587-606。

Hubbard,R.和Lindsay,RM(2008)。为什么P值在统计显着性检验中不是有用的证据量度。理论与心理学,18(1),69-88。


7

在我看来,答案更多的是博弈论而非统计学。将1%和5%的内容消耗掉,这意味着研究人员无法有效地自由选择适合自己倾向的显着性水平。假设我们看到了p值为.055且显着性水平已设置为6%的论文-将会提出问题。1%和5%提供了一种可靠的承诺形式。


7
也许吧,但是你认为研究人员不操作的回归,使用重复的测试等例如成立5%的水平下挤...
柯克

当然这是可能的,并且可能会发生。但是问题是大约1%和5%。在我看来,这是试图就何时接受重要事物建立一种社会惯例。这些是任意的,但它们对于研究者作为一个整体是任意的,而不是对于单个研究者是任意的。
猜想

3
同意,我只是指出具有常规显着性水平并不意味着不应该提出问题,正如您在帖子中所推断的那样。仅仅因为一篇论文在常规水平上取得了显著成绩,并不意味着它是可信的!
柯克

啊,在博弈论的意义上(或尝试),我使用的是可信的。正如您所说的那样,如果不是这样,您就可以使威胁可信,您可以退后一步或稍后改变主意。在这种情况下,个别研究人员将很难下定任何其他阈值。
猜想

2
p

6

我个人的假设是0.05(或20中的1)与at / z值(非常接近)2相关联。使用2很好,因为如果您的结果具有统计学意义,则很容易发现。轮数没有其他融合。


7
Z=1Z=3

9
1/31/201/4001/16000z=1,2,3,4

1
:)嗯...好点。但是您需要被限制使用的东西所限制-1/3有点松懈,1/400有点严格。
Jeremy Miles

10
杰里米(Jeremy)正是我要说的:5%和1%的传统至少部分是基于统计风险的概念(“有点松懈”或“严格”),而不是最初从任何方便的经验法则得出。
whuber

1
Z=11/π

6

唯一正确的数字是.04284731

...这是一种轻率的响应,旨在表示.05的选择本质上是任意的。我通常只报告p值,而不是报告p值是大于还是小于。

“重要性”是一个连续变量,在我看来,将其离散化往往弊大于利。我的意思是,如果p = .13,则您比p = .21时更有信心,而比p = .003时少


好吧,在餐桌时代,人们或多或少被迫离散化……由于餐桌是在教学中使用的,这种情况仍在继续……
kjetil b halvorsen 18/12/18

@kjetilbhalvorsen很好,赌桌制造者显然没有选择.04284731作为临界值。
–generic_user

2

这个假设检验领域一直令我着迷。尤其是因为有一天有人决定将测试程序二等分的任意数字,此后人们很少质疑它。

我记得有一位讲师告诉我们不要对工具变量的Staiger和Stock测试(在第一阶段的回归中F-stat应该大于10以避免软弱的仪器问题)不要过分相信,因为数字10是完全任意的选择。我记得说过:“但是,这与常规假设检验不一样吗????”


5
这是为了回答@EconStats吗?似乎更像是一条评论。请记住,简历不旨在作为讨论论坛。您介意将此帖子的答案变得更加突出吗?
gung

1
抱歉@gung。我想我的意思是,尽管其他用户提供了一些证据,但我仍然认为最可能的答案是我们有一个基于十进制的编号系统,并且该系统今天仍被用来提出假设检验的任意数字。例如我提到的Staiger和Stock F检验。
EconStats

1
作为该问题的原始发布者,我相信这绝对可以作为答案。谢谢!
康坦戈

0

为什么是1和5?因为他们感觉正确。

我敢肯定,有针对特定数字的情感价值和认知显着性的研究,但是我们可以理解1和5的选择,而不必求助于研究。

创建当今统计数据的人出生,成长并生活在十进制的世界中。当然,存在非十进制计数系统,并且可以使用指骨计数到十二位,但已经完成,但是以使用手指的方式(因此称为“数字”,就像数字一样)并不明显)。尽管您(和费舍尔)可能知道非十进制计数系统,但在过去一百年中,十进制系统已经成为您(和费舍尔世界)的主要计数系统。

但是为什么数字五和一是特殊的呢?因为这两个都是自然十进制中最自然的分部:一根手指,另一只手(或另一半)。

您甚至不必去概念化分数从十到一和五。一个就在那里,就像您的手指就在那里。将某物减半比将其分成任何其他部分要简单得多。将任何东西分成两部分都不需要思考,而被三或四除就已经很复杂了。

大多数现行货币系统的硬币和纸币的值分别为1、2、5、10、20、50、100、200、500、1000。某些货币系统没有2、20和200,但是几乎所有的货币系统都以同时,大多数货币系统没有以3、4、6、7、8或9开头的硬币或钞票。不是吗?但是为什么会这样呢?

因为您总是需要1个中的10个或5个中的2个(或2个中的5个)才能到达下一个更大的订单。用金钱进行计算非常简单:十倍或两倍。只是两种操作。您拥有的每个硬币都是下一个订购硬币的一半或十分之一。这些数字很容易相乘并相加。

因此,从最早的1和5开始就深深地扎根到Fisher中,其他任何人都选择显着性水平作为10的最直接,最简单,最基本的划分。其他任何数字都需要一个论点,而这些数字就在那里。

如果没有一种客观的方法来为每个单独的数据集计算适当的显着性水平,那么第一和第五个就是正确的。


“无需诉诸研究。” 虽然我认为答案很好,但这确实将其纳入了意见领域。如果有足够的资料来证明这一点,这将带来很大的信誉,并使答案更具权威性。
Momo
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.