相对于p值(以及其他统计推断指标),效用大小的效用在我的领域(心理学)中是例行辩论的话题,由于与您的问题相关的原因,辩论目前比正常情况更“激烈”。尽管我确信心理学不一定是统计学上最复杂的科学领域,但它已经很容易地讨论,研究(有时是证明)了各种统计推断方法的局限性,或者至少是如何受到人类使用的限制。已经发布的答案包括很好的见解,但是如果您对更广泛的理由(和参考)清单感兴趣,请参阅下文。
为什么p值不理想?
- 正如达伦·詹姆斯(Darren James)指出的(以及他的模拟结果所示),p值很大程度上取决于您拥有的观测数量(请参见Kirk,2003年)
- 正如乔恩(Jon)所言,假定原假设为真,则p值表示观察数据的条件概率为极端或更高。由于大多数研究人员宁愿拥有研究假设和/或原假设的概率,因此p值并不代表研究人员最感兴趣的概率(即原假设或研究假设的概率,请参见Dienes,2008)
- 许多使用p值的人不了解它们的含义/不含义(Schmidt&Hunter,1997)。Michael Lew对Gelman和Stern(2006)论文的引用进一步强调了研究人员对一个人可以(或不能)从p值解释什么的误解。作为有关FiveThirtyEight的一个相对较新的故事表明的那样,情况仍然如此。
- p值在预测后续p值方面并不出色(Cumming,2008)
- p值经常被错误报告(更经常被夸大),错误报告与不愿共享数据有关(Bakker&Wicherts,2011; Nuijten等人,2016; Wicherts等人,2011)
- p值可能会(并且在历史上一直)通过分析灵活性而被积极扭曲,因此是不可信的(John等,2012; Simmons等,2011)。
- p值的重要性不成比例,因为学术系统似乎在奖励科学家在科学准确性上具有统计学意义(Fanelli,2010; Nosek等,2012; Rosenthal,1979)。
为什么需要效果大小?
请注意,我将您的问题解释为专门针对标准化效应量,因为您说他们允许研究人员将其发现转化为“ INTO A COMMON metric”。
- 正如乔恩(Jon)和达伦·詹姆斯(Darren James)指出的那样,效应大小表明效应的大小,与观察次数无关(美国心理学会2010;卡明,2014),而不是根据是否存在效应进行二分式决策。
- 效应量之所以有价值,是因为它们使荟萃分析成为可能,并且荟萃分析可驱动累积知识(Borenstein等,2009; Chan&Arvey,2012)。
- 效应量有助于通过先验能力分析促进样本量的计划,从而有效地分配研究资源(Cohen,1992)
为什么需要p值?
尽管p值不太受拥护,但p值有很多好处。有些是众所周知的历史悠久,而另一些则相对较新。
为什么效果大小不理想(或过高)?
对许多人来说,也许是最违反直觉的立场;为什么报告标准化效果大小是不希望的,或者至少是高估了?
- 在某些情况下,标准化效果的大小并不是他们想要破解的全部(例如Greenland,Schlesselman和Criqui,1986)。特别是Baguely(2009),对原始/非标准化效应量可能更为理想的一些原因进行了很好的描述。
- 尽管它们可用于先验功效分析,但实际上并未可靠地使用效应量来促进有效的样本量计划(Maxwell,2004年)
- 即使在样本量计划中使用效应量时,由于它们会因出版偏见而夸大(Rosenthal,1979年),因此公布的效应量对于可靠的样本量计划还是有用的(Simonsohn,2013年)
- 效应大小的估计在统计软件中可能曾经被系统错误地计算(Levine&Hullet,2002)
- 效应大小被错误地提取(并且可能被错误报告),这破坏了荟萃分析的可信度(Gøtzsche等,2007)。
- 最后,校正效应大小的发表偏倚仍然无效(请参见Carter等人,2017),如果您认为存在发表偏倚,则会降低荟萃分析的影响力。
摘要
呼应Michael Lew的观点,p值和效应大小仅是两个统计证据。还有其他值得考虑的地方。但是,与p值和效应大小一样,其他证据价值度量标准也存在共同且独特的问题。研究人员通常会误用和误解置信区间(例如,Hoekstra等人,2014; Morey等人,2016),贝叶斯分析的结果可能会被研究人员扭曲,就像使用p值时一样(例如Simonsohn ,2014)。
所有证据均已赢得,而且都必须有奖品。
参考文献
美国心理协会。(2010)。美国心理学会出版手册(第6版)。华盛顿特区:美国心理学会。
Baguley,T.(2009年)。标准化或简单的效应量:应报告什么?英国心理学杂志,100(3),603-617。
Bakker,M.和Wicherts,JM(2011)。心理学期刊中统计结果的(错误)报告。行为研究方法,43(3),666-678。
Borenstein,M.,Hedges,LV,Higgins,J.,&Rothstein,HR(2009)。荟萃分析简介。英国西萨塞克斯郡:John Wiley&Sons,Ltd.
EC的Carter,FD的Schönbrodt,WM的Gervais和J.的Hilgard(2017年8月12日)。纠正心理学上的偏见:荟萃分析方法的比较。取自osf.io/preprints/psyarxiv/9h3nu
Chan,ME,&Arvey,RD(2012)。荟萃分析和知识发展。心理科学观点,7(1),79-92。
Cohen,J。(1992)。电源底漆。心理公报,112(1),155-159。
卡明,G。(2008)。复制和p间隔:p值仅能模糊地预测未来,但置信区间的效果要好得多。心理科学观点,第3期,286-300。
Dienes,D.(2008年)。将心理学理解为一门科学:科学和统计推断的简介。纽约,纽约:帕尔格雷夫·麦克米兰。
Fanelli,D.(2010年)。“积极”的结果会降低科学的层次。一,5(4),e10068。
Gelman,A.,&Stern,H.(2006)。“显着”和“不显着”之间的差异本身在统计上并不显着。美国统计学家,60(4),328-331。
Gøtzsche,PC,Hróbjartsson,A.,Marić,K.,&Tendal,B.(2007年)。使用标准均值差的荟萃分析中的数据提取错误。JAMA,298(4),430-437。
格陵兰,S.,Schlesselman,JJ,和Criqui,MH(1986)。使用标准化回归系数和相关性作为效果度量的谬误。美国流行病学杂志123(2),203-208。
Hoekstra,R.,Morey,RD,Rouder,JN,&Wagenmakers,EJ(2014)。对置信区间的错误解释。心理公告与评论,21(5),1157-1164。
John,LK,Loewenstein,G.&Prelec,D.(2012年)。通过讲真话的动机来衡量有问题的研究实践的普遍性。心理科学,23(5),524-532。
柯克,稀土(2003)。效果大小的重要性。在SF Davis(编辑)的《实验心理学研究方法手册》(第83–105页)中。马萨诸塞州马尔登:布莱克威尔。
Lakens,D.(2014年)。通过顺序分析有效地执行高性能研究。欧洲社会心理学杂志,44(7),701-710。
Levine,TR和Hullett,CR(2002)。传播平方中的Eta平方,部分eta平方和错误报告效应大小。Human Communication Research,28(4),612-625。
麦克斯韦,东南(2004)。心理研究中动力不足的研究的持久性:原因,后果和补救措施。心理方法,9(2),147。
莫雷(RD),霍克斯特拉(R. 将置信度置入置信区间的谬误。心理公告与评论,23(1),103-123。
Nosek,BA,Spies,JR,&Motyl,M.(2012年)。科学乌托邦:II。调整激励措施和实践,以促进事实胜于发布。心理科学观点,7(6),615-631。
Nuijten,MB,Hartgerink,CH,van Assen,MA,Epskamp,S.,&Wicherts,JM(2016)。心理学中统计报告错误的普遍性(1985-2013年)。行为研究方法,48(4),1205-1226。
Rosenthal,R。(1979)。文件抽屉问题和对空结果的容忍度。心理通报,86(3),638-641。
Sakaluk,JK(2016)。探索小事,证实大事:新统计数据的替代系统,用于推进累积和可复制的心理学研究。实验社会心理学杂志,66,47-54。
Schimmack,U.(2014)。量化统计研究的完整性:可重复性指数。取自http://www.r-index.org
Schmidt,FL,和Hunter,JE(1997)。对研究数据分析中的重要性检验中断的八个常见但错误的反对意见。在LL Harlow,SA Mulaik和JH Steiger(编辑)中,如果没有显着性检验怎么办?(第37–64页)。新泽西州Mahwah:艾尔鲍姆。
Schönbrodt,FD(2015)。p-checker:通用的p值分析器。从http://shinyapps.org/apps/p-checker/检索。
西蒙斯(JP),尼尔森(LD)和西蒙索恩(U)(2011)。假阳性心理学:数据收集和分析中未公开的灵活性允许呈现任何有意义的东西。心理科学,22(11),1359-1366。
西蒙索恩(Simonsohn),美国(2013)。根据观察到的效果大小来推动复制的愚蠢行为。摘自http://datacolada.org/4
西蒙索恩(Simonsohn),美国(2014)。后黑客。从http://datacolada.org/13检索。
U.Simonsohn,Nelson,LD和Simmons,JP(2014)。P曲线:文件抽屉的键。实验心理学杂志:一般,143(2),534-547。
U.Simonsohn,Nelson,LD和Simmons,JP(2014)。P曲线和效果大小:仅使用显着结果校正出版偏倚。心理科学观点,9(6),666-681。
Wicherts,JM,Bakker,M.和Molenaar,D.(2011)。共享研究数据的意愿与证据的强度和统计结果报告的质量有关。一,6(11),e26828。