14

在应用研究中，很多重点放在依赖和报告效应大小上，而不是p值上（例如，下面进一步引用）。

但是，不是像p值一样，效应大小是随机变量，并且在重复相同实验时，样本之间的影响大小可能会有所不同吗？换句话说，我在问什么统计特征（例如，效应大小在样本之间的可变性小于p值）使效应大小比p值更好的证据衡量指标？

但是，我应该提到一个重要的事实，它将p值与效果大小区分开。也就是说，效果大小之所以可以估算，是因为它具有总体参数，而p值却没有任何估算，因为它没有任何总体参数。

对我而言，效应大小只是在某些研究领域（例如，人类研究）有助于将来自各种研究人员开发的测量工具的经验发现转化为通用度量的度量（可以说，使用人类研究可以更好地适应这种度量）量化研究俱乐部）。

也许如果我们将一个简单的比例作为效应大小，那么以下（R中的）是什么表明效应大小超过p值的优势？（p值会发生变化，但效果大小不会改变）

binom.test(55, 100, .5)  ## p-value = 0.3682  ## proportion of success 55% 

binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%

请注意，大多数效果大小与测试统计量线性相关。因此，使用效应量进行零假设检验很容易。

例如，事前设计产生的统计量可以很容易地转换为相应的科恩效应大小。这样，Cohen d的分布只是at分布的比例定位版本。

引号：

由于p值是混杂指标，因此理论上100个样本大小不同且影响大小不同100项的研究可能具有相同的单个p值，而100个具有相同单一影响值的研究可能各自具有100个不同的p值。

要么

p值是随样本不同而变化的随机变量。。。。因此，比较两个不同实验的p值，或对同一实验中测量的两个变量的测试的p值进行比较，并声明一个比另一个重要，是不合适的。

引文：

汤普森（2006）。行为统计的基础：一种基于洞察力的方法。纽约，纽约：吉尔福德出版社。

Good，PI和Hardin，JW（2003）。统计中的常见错误（以及如何避免）。纽约：威利。

— 诺鲁齐安
source

12

我从引文中得出的结论并不相同（效果大小是“优”或应该报告而不是p值）。我知道有些人通过这样的声明（例如BASP禁止p值）反应过度。这不是一种或另一种情况：它是指出p值和效果大小会提供各种有用信息的情况。通常，不应在不考虑另一方的情况下对其进行检查。

— ub

1

我个人认为，报告估计值以及置信区间就足够了。它同时给出了效果大小（实践意义）和假设检验（统计意义）。

— Jirapat Samranvedhya '17

1

p值或效果大小是否为“优”取决于您的观点。前者遵循渔业NHST传统，而后者遵循内曼·皮尔森传统。在某些领域（生物科学，人文科学），效应大小往往很小，使p值具有吸引力。相反，正如其他人指出的那样，可以通过更改设计（例如增加N）来“强制”减小p值

— 。– HEITZ

3

螺丝刀比锤子好吗？

— kjetil b halvorsen

螺母优于螺栓吗？

— Sextus Empiricus

21

提供效果大小而不是P值的建议是基于错误的二分法，而且很愚蠢。为什么不同时显示两个？

科学结论应基于对现有证据和理论的合理评估。单独或一起使用P值和观察到的效应大小是不够的。

您提供的任何引用的段落都无济于事。当然，P值因实验而异，数据证据的强度随实验而异。P值只是通过统计模型对该证据的数值提取。考虑到P值的性质，将一个P值与另一个P值进行比较与分析目的很少相关，因此报价作者可能试图传达这一点。

如果您发现自己想比较P值，那么您可能应该对数据的其他排列方式进行了显着性检验，以便明智地回答您感兴趣的问题。看到以下问题： p值是否为p值？而如果一个组的从零均值不同，但其他没有，我们可以得出这样的结论群体有什么不同？

因此，您的问题的答案很复杂。我发现基于P值或效应大小的数据二分法响应不是有用的，所以效应大小是否优于P值？是的，不，有时，也许，这取决于您的目的。

— 迈克尔·卢
source

我认为最好提供影响大小及其置信区间，只要分析人员能够正确说明对于手头研究有意义的影响大小。置信区间与p值不同，它使读者对估算的精度及其极值都具有一定的了解。

— AdamO '17

1

@AdamO是的，我在很大程度上同意，但是P值有两件事可以提供，不应忽略。它是针对零值的证据强度的指标，这只能由经验丰富的眼睛从置信区间中得出，并且精确的P值不会直接引起置信区间对内部/外部的二分法。当然，似然函数相对于两者都具有优势。

— 迈克尔·卢

14

在应用研究的背景下，效应大小对于读者来说是必要的，以便解释发现的实际意义（而不是统计学意义）。通常，p值对样本大小的敏感度远大于效果大小。如果实验准确地测量了效应大小（即，它足够接近要估计的总体参数）但产生了不显着的p值，则在所有条件相同的情况下，增加样本数量将导致相同的效应大小，但较低的p值。这可以通过功耗分析或仿真来证明。

鉴于此，对于没有实际意义的效果大小，可以实现非常重要的p值。相比之下，低功率的研究设计可以产生不重要的p值，从而具有很大的实际重要性。

没有特定的实际应用，很难讨论相对于效应大小的统计显着性的概念。例如，考虑一个评估新学习方法对学生平均成绩（GPA）效果的实验。我认为效果等级为0.01级几乎没有实际意义（即2.51比2.51）。假设治疗组和对照组的样本量均为2,000名学生，且人口标准偏差为0.5个等级点：

set.seed(12345)
control.data <- rnorm(n=2000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=2000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE)

治疗样本 平均值 = 2.51

对照样本 平均值 = 2.50

效果大小= 2.51-2.50 = 0.01

p = 0.53

将样本数量增加到20,000名学生，并使其他所有条件保持不变，将产生显着的p值：

set.seed(12345)
control.data <- rnorm(n=20000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=20000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE)

治疗样本 平均值 = 2.51

对照样本 平均值 = 2.50

效果大小= 2.51-2.50 = 0.01

p = 0.044

显然，将样本大小增加一个数量级并不是一件容易的事！但是，我认为我们都可以同意，这种研究方法所提供的实际改进可以忽略不计。如果我们仅依靠p值，那么在n = 20,000的情况下，我们可能会另外相信。

我个人主张同时报告p值和效果大小。以及用于t统计或F统计，自由度和模型诊断的奖励积分！

— 达伦·詹姆斯
source

2

达伦，请显示您在R或PO中的确切含义。

— user138773

7

@Darrent James在p = 0.065和p = 0.043之间的差值中，除不幸的假设p = 0.05是应当遵守的明线之外，没有任何实际意义。P值本身都不代表有力的证据支持或反对任何事物。

— 迈克尔·卢

@Michael Lew是的，我同意！

— 达伦·詹姆斯

1

James，给出您的代码和解释后，您似乎完全误解了OP的观点。您的R代码也是错误的！因为您未设置，var.equal = TRUE而sds相等。在这样的背景下，我不确定您为什么还要发布这样的回复。OP提出了至少目前没有一个简单答案的问题！

— user138773

1

我在代码中添加了var.equal = TRUE。但这是不必要的。使用var.equal = TRUE和默认var.equal = FALSE可获得相同的p值。

— 达伦·詹姆斯

5

我目前在数据科学领域工作，然后在教育研究领域工作。在每个“职业”期间，我都与并非来自统计学的正式背景的人合作，并且统计学（和实际）重要性的重点放在p值上。我已经学会在分析中包括并强调效应大小，因为统计意义和实际意义之间存在差异。

通常，我与之共事的人关心的是“我们的程序/功能是否起作用并产生影响，是或否？”。对于这样的问题，您可以做简单的t检验，然后向他们报告“是的，您的程序/功能会有所作为”。但是，这种“差异”有多大？

首先，在我开始研究该主题之前，我想总结一下我们在谈到效果大小时所指的内容

规模效应只是量化两组之间差异大小的一种方式。相对于某些比较，对于量化特定干预措施的有效性特别有价值。它使我们能够摆脱简单化的说法，“它行不行？” 甚至更复杂的是，“它在各种情况下的效果如何？” 此外，通过将重点放在干预措施的最重要方面-效果的大小-而不是其统计显着性（这会缩小效果的大小和样本量），它促进了一种更为科学的知识积累方法。由于这些原因，效应大小是报告和解释有效性的重要工具。

这是效果大小，愚蠢的：什么是效果大小，为什么重要

接下来，什么是p值，它可以为我们提供什么信息？好吧，用尽可能少的词表示的p值是从纯分布观察到的与零分布的差异的概率。因此，当此p值小于阈值（时，我们拒绝（或不接受）零假设。 $\alpha$ ）。

为什么P值不够？

统计显着性是两组之间观察到的差异归因于偶然性的概率。如果 P值大于所选的alpha值（例如0.05），则假定观察到的任何差异都是由采样变异性解释的。对于足够大的样本，统计检验几乎总是会显示出显着差异，除非没有任何影响，也就是说，当影响大小恰好为零时；但是很小的差异，即使是很大的差异，也往往毫无意义。因此，仅报告重要的P值进行分析不足以使读者充分理解结果。

并证实@DarrenJames关于大样本量的评论

例如，如果样本量为10000，即使两组之间的结果差异可忽略不计，也可能会发现一个显着的P值，并且可能无法证明对另一组进行昂贵或费时的干预是合理的。重要性水平本身不能预测效果的大小。与显着性检验不同，效应量与样本量无关。另一方面，统计显着性取决于样本量和效应量。因此，由于P值取决于样本大小，因此认为它们是混淆的。有时，具有统计意义的结果意味着仅使用了巨大的样本量。[有一种错误的观点，认为这种行为代表了对原假设的偏见。为什么频繁性假设检验偏向于拒绝足够大样本的零假设？]

使用效果大小-或为什么P值不够大

报告P值和效应大小

现在回答这个问题，是影响大小优于以p值？我会争辩说，这些都是统计分析中的重要组成部分，无法用这种术语进行比较，应该一起报告。该p值是统计来表示（从零分布差异）统计学意义，其中效果大小付诸话如何存在很大差异。有。

举个例子，您的主管鲍勃（Bob）对统计数据不太友好，他想知道wt（重量）和mpg（英里/加仑）之间是否存在显着关系。您从假设开始分析

H_{0} ： β_{米 p G} = 0 与 H_{一种} ： β_{米 p G} \neq 0

$H_0: \beta_{mpg} = 0 \text{ vs } H_A: \beta_{mpg} \neq 0$

在进行测试 $\alpha = 0.05$

> data("mtcars")
> 
> fit = lm(formula = mpg ~ wt, data = mtcars)
> 
> summary(fit)

Call:
lm(formula = mpg ~ wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5432 -2.3647 -0.1252  1.4096  6.8727 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
wt           -5.3445     0.5591  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared:  0.7528,    Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

summary $\beta_{mpg} \neq 0$

因此，您可以得出结论，该结果具有统计意义，并可以实际方式传达其重要性。

我希望这对回答您的问题很有用。

— 乔恩
source

乔恩，谢谢，我希望能听到更多关于灰色地带的信息，但我没有。在许多情况下，效果大小和p值不一致。我想知道为什么在这种情况下许多信任效应大小。我希望能听到更多有关模拟的信息，这些模拟可能显示出重要的观点。关于您提出的问题，即效果大小可能很小，但不完全为零；等效测试的方法已经存在了几年。我更喜欢贝叶斯等效测试。无论如何，我可能没有足够清楚地问我的问题。-谢谢

— rnorouzian

顺便说一句，一位同事评论说达伦的R代码是错误的，看来他/他是正确的。他没有放var.equal = TRUE。

— rnorouzian

*在许多情况下，效果大小和p值不一致。*-您可以提供更多信息吗？一个例子？关于您提出的问题，即效果大小可能很小，但不完全为零，这种情况可能会导致样本量很大。因此，如果效应大小接近于零，则感兴趣的变量可能不会显着影响结果，或者关系可能被错误地指定（例如线性与非线性）。

— 乔恩（Jon）

只要尝试这个工具。另请参阅此文档。似乎以后我需要使用一些代码来询问另一个问题，以使其更加清晰。 - 谢谢。

— rnorouzian

@rnorouzian，好的，我运行了您的代码。你想说什么？

— 乔恩（Jon）

4

相对于p值（以及其他统计推断指标），效用大小的效用在我的领域（心理学）中是例行辩论的话题，由于与您的问题相关的原因，辩论目前比正常情况更“激烈”。尽管我确信心理学不一定是统计学上最复杂的科学领域，但它已经很容易地讨论，研究（有时是证明）了各种统计推断方法的局限性，或者至少是如何受到人类使用的限制。已经发布的答案包括很好的见解，但是如果您对更广泛的理由（和参考）清单感兴趣，请参阅下文。

为什么p值不理想？

正如达伦·詹姆斯（Darren James）指出的（以及他的模拟结果所示），p值很大程度上取决于您拥有的观测数量（请参见Kirk，2003年）
正如乔恩（Jon）所言，假定原假设为真，则p值表示观察数据的条件概率为极端或更高。由于大多数研究人员宁愿拥有研究假设和/或原假设的概率，因此p值并不代表研究人员最感兴趣的概率（即原假设或研究假设的概率，请参见Dienes，2008）
许多使用p值的人不了解它们的含义/不含义（Schmidt＆Hunter，1997）。Michael Lew对Gelman和Stern（2006）论文的引用进一步强调了研究人员对一个人可以（或不能）从p值解释什么的误解。作为有关FiveThirtyEight的一个相对较新的故事表明的那样，情况仍然如此。
p值在预测后续p值方面并不出色（Cumming，2008）
p值经常被错误报告（更经常被夸大），错误报告与不愿共享数据有关（Bakker＆Wicherts，2011; Nuijten等人，2016; Wicherts等人，2011）
p值可能会（并且在历史上一直）通过分析灵活性而被积极扭曲，因此是不可信的（John等，2012； Simmons等，2011）。
p值的重要性不成比例，因为学术系统似乎在奖励科学家在科学准确性上具有统计学意义（Fanelli，2010； Nosek等，2012； Rosenthal，1979）。

为什么需要效果大小？

请注意，我将您的问题解释为专门针对标准化效应量，因为您说他们允许研究人员将其发现转化为“ INTO A COMMON metric”。

正如乔恩（Jon）和达伦·詹姆斯（Darren James）指出的那样，效应大小表明效应的大小，与观察次数无关（美国心理学会2010；卡明，2014），而不是根据是否存在效应进行二分式决策。
效应量之所以有价值，是因为它们使荟萃分析成为可能，并且荟萃分析可驱动累积知识（Borenstein等，2009； Chan＆Arvey，2012）。
效应量有助于通过先验能力分析促进样本量的计划，从而有效地分配研究资源（Cohen，1992）

为什么需要p值？

尽管p值不太受拥护，但p值有很多好处。有些是众所周知的历史悠久，而另一些则相对较新。

P值提供了针对统计模型无效假设的证据强度的方便且熟悉的指标。
如果计算正确，则p值可提供做出二元决策的手段（有时是必要的），p值有助于将长期的假阳性错误率保持在可接受的水平（Dienes，2008； Sakaluk，2016）[说二分决策需要P值并不完全正确。它们确实确实以这种方式被广泛使用，但是Neyman＆Pearson为此在测试统计空间中使用了“关键区域”。查看此问题及其答案]
p值可用于促进连续有效的样本量计划（不仅仅是一次功效分析）（Lakens，2014年）
p值可用于促进荟萃分析和评估证据价值（Simonsohn等，2014a； Simonsohn等，2014b）。有关如何以这种方式使用p值分布的无障碍讨论，请参见此博客文章，以及该CV帖子。；有关相关讨论。
p值可用于法医确定是否使用了可疑的研究实践以及可复制的结果（Schimmack，2014年；另请参阅Schönbrodt的应用程序，2015年）

为什么效果大小不理想（或过高）？

对许多人来说，也许是最违反直觉的立场；为什么报告标准化效果大小是不希望的，或者至少是高估了？

在某些情况下，标准化效果的大小并不是他们想要破解的全部（例如Greenland，Schlesselman和Criqui，1986）。特别是Baguely（2009），对原始/非标准化效应量可能更为理想的一些原因进行了很好的描述。
尽管它们可用于先验功效分析，但实际上并未可靠地使用效应量来促进有效的样本量计划（Maxwell，2004年）
即使在样本量计划中使用效应量时，由于它们会因出版偏见而夸大（Rosenthal，1979年），因此公布的效应量对于可靠的样本量计划还是有用的（Simonsohn，2013年）
效应大小的估计在统计软件中可能曾经被系统错误地计算（Levine＆Hullet，2002）
效应大小被错误地提取（并且可能被错误报告），这破坏了荟萃分析的可信度（Gøtzsche等，2007）。
最后，校正效应大小的发表偏倚仍然无效（请参见Carter等人，2017），如果您认为存在发表偏倚，则会降低荟萃分析的影响力。

摘要

呼应Michael Lew的观点，p值和效应大小仅是两个统计证据。还有其他值得考虑的地方。但是，与p值和效应大小一样，其他证据价值度量标准也存在共同且独特的问题。研究人员通常会误用和误解置信区间（例如，Hoekstra等人，2014； Morey等人，2016），贝叶斯分析的结果可能会被研究人员扭曲，就像使用p值时一样（例如Simonsohn ，2014）。

所有证据均已赢得，而且都必须有奖品。

参考文献

美国心理协会。（2010）。美国心理学会出版手册（第6版）。华盛顿特区：美国心理学会。

Baguley，T.（2009年）。标准化或简单的效应量：应报告什么？英国心理学杂志，100（3），603-617。

Bakker，M.和Wicherts，JM（2011）。心理学期刊中统计结果的（错误）报告。行为研究方法，43（3），666-678。

Borenstein，M.，Hedges，LV，Higgins，J.，＆Rothstein，HR（2009）。荟萃分析简介。英国西萨塞克斯郡：John Wiley＆Sons，Ltd.

EC的Carter，FD的Schönbrodt，WM的Gervais和J.的Hilgard（2017年8月12日）。纠正心理学上的偏见：荟萃分析方法的比较。取自osf.io/preprints/psyarxiv/9h3nu

Chan，ME，＆Arvey，RD（2012）。荟萃分析和知识发展。心理科学观点，7（1），79-92。

Cohen，J。（1992）。电源底漆。心理公报，112（1），155-159。

卡明，G。（2008）。复制和p间隔：p值仅能模糊地预测未来，但置信区间的效果要好得多。心理科学观点，第3期，286-300。

Dienes，D.（2008年）。将心理学理解为一门科学：科学和统计推断的简介。纽约，纽约：帕尔格雷夫·麦克米兰。

Fanelli，D.（2010年）。“积极”的结果会降低科学的层次。一，5（4），e10068。

Gelman，A.，＆Stern，H.（2006）。“显着”和“不显着”之间的差异本身在统计上并不显着。美国统计学家，60（4），328-331。

Gøtzsche，PC，Hróbjartsson，A.，Marić，K.，＆Tendal，B.（2007年）。使用标准均值差的荟萃分析中的数据提取错误。JAMA，298（4），430-437。

格陵兰，S.，Schlesselman，JJ，和Criqui，MH（1986）。使用标准化回归系数和相关性作为效果度量的谬误。美国流行病学杂志123（2），203-208。

Hoekstra，R.，Morey，RD，Rouder，JN，＆Wagenmakers，EJ（2014）。对置信区间的错误解释。心理公告与评论，21（5），1157-1164。

John，LK，Loewenstein，G.＆Prelec，D.（2012年）。通过讲真话的动机来衡量有问题的研究实践的普遍性。心理科学，23（5），524-532。

柯克，稀土（2003）。效果大小的重要性。在SF Davis（编辑）的《实验心理学研究方法手册》（第83–105页）中。马萨诸塞州马尔登：布莱克威尔。

Lakens，D.（2014年）。通过顺序分析有效地执行高性能研究。欧洲社会心理学杂志，44（7），701-710。

Levine，TR和Hullett，CR（2002）。传播平方中的Eta平方，部分eta平方和错误报告效应大小。Human Communication Research，28（4），612-625。

麦克斯韦，东南（2004）。心理研究中动力不足的研究的持久性：原因，后果和补救措施。心理方法，9（2），147。

莫雷（RD），霍克斯特拉（R. 将置信度置入置信区间的谬误。心理公告与评论，23（1），103-123。

Nosek，BA，Spies，JR，＆Motyl，M.（2012年）。科学乌托邦：II。调整激励措施和实践，以促进事实胜于发布。心理科学观点，7（6），615-631。

Nuijten，MB，Hartgerink，CH，van Assen，MA，Epskamp，S.，＆Wicherts，JM（2016）。心理学中统计报告错误的普遍性（1985-2013年）。行为研究方法，48（4），1205-1226。

Rosenthal，R。（1979）。文件抽屉问题和对空结果的容忍度。心理通报，86（3），638-641。

Sakaluk，JK（2016）。探索小事，证实大事：新统计数据的替代系统，用于推进累积和可复制的心理学研究。实验社会心理学杂志，66，47-54。

Schimmack，U.（2014）。量化统计研究的完整性：可重复性指数。取自http://www.r-index.org

Schmidt，FL，和Hunter，JE（1997）。对研究数据分析中的重要性检验中断的八个常见但错误的反对意见。在LL Harlow，SA Mulaik和JH Steiger（编辑）中，如果没有显着性检验怎么办？（第37–64页）。新泽西州Mahwah：艾尔鲍姆。

Schönbrodt，FD（2015）。p-checker：通用的p值分析器。从http://shinyapps.org/apps/p-checker/检索。

西蒙斯（JP），尼尔森（LD）和西蒙索恩（U）（2011）。假阳性心理学：数据收集和分析中未公开的灵活性允许呈现任何有意义的东西。心理科学，22（11），1359-1366。

西蒙索恩（Simonsohn），美国（2013）。根据观察到的效果大小来推动复制的愚蠢行为。摘自http://datacolada.org/4

西蒙索恩（Simonsohn），美国（2014）。后黑客。从http://datacolada.org/13检索。

U.Simonsohn，Nelson，LD和Simmons，JP（2014）。P曲线：文件抽屉的键。实验心理学杂志：一般，143（2），534-547。

U.Simonsohn，Nelson，LD和Simmons，JP（2014）。P曲线和效果大小：仅使用显着结果校正出版偏倚。心理科学观点，9（6），666-681。

Wicherts，JM，Bakker，M.和Molenaar，D.（2011）。共享研究数据的意愿与证据的强度和统计结果报告的质量有关。一，6（11），e26828。

— jsakaluk
source

2

非常好的想法和参考资料集。对于想进一步深入研究的人应该会有所帮助，但请注意，许多要点在此站点上都有相关的问题和解答。链接到那些也有帮助。

— 迈克尔·卢

@MichaelLew谢谢。稍后，我将添加一些链接-下午的大部分时间来草拟此回复并整理参考。关于您的编辑，我认为您的观点是正确的，但也许是补充，而不是更正？我说过，p值提供了一种进行二元决策的方法（不是“必须”或这样做的唯一方法）。我同意NP关键区域是另一种方法，但是我对OP的回答是关于p值提供的效果与标准化效果大小的关系。

— jsakaluk '17

1

jsakaluk，是的，我可以看到您在答案上会花费很长时间，它非常有用，值得您努力。我编辑了有关P值优势的项目，因为您写了“正确使用时”，可以将它们二分为二，而现实情况是，这种用法会忽略P值中编码的许多信息，因此可以说是（并且我认为）使用不正确。我不想颠覆您的意图，因此我将“使用”更改为“计算”。

— 迈克尔·卢

3

从流行病学家的角度来看，为什么我更喜欢效应值而不是p值（尽管有人指出，这是错误的二分法）：

效果大小告诉我我真正想要的是什么，p值只是告诉我它是否可与null区分。相对风险1.0001、1.5、5和50可能都具有相同的p值，但是就我们在总体水平上可能需要做的事情而言，这意味着非常不同的事情。
依靠p值强化了这样一种观念，即基于重要性的假设检验是所有证据的最终证明。考虑以下两个陈述：“对病人微笑的医生在住院期间与不良后果没有明显关系。” 与“对医生微笑的患者发生不良后果的可能性降低50％（p = 0.086）”。考虑到它绝对没有成本，您是否仍可以考虑建议医生对患者微笑？
我使用许多随机仿真模型，其中样本大小是计算能力和耐心的函数，而p值本质上是没有意义的。对于与临床或公共卫生完全无关的事情，我设法获得p <0.05的结果。

— 方铁
source

效果大小真的优于p值吗？

效果大小= 2.51-2.50 = 0.01

p = 0.53

效果大小= 2.51-2.50 = 0.01

p = 0.044

为什么P值不够？

报告P值和效应大小