将结果称为“高度重要”是错误的吗?


18

p值远低于传统的α水平0.05时,为什么统计学家不鼓励我们将结果称为“ 高度显着” ?pα0.05

相信有99.9%的机会不会成为I型错误()而不是仅给您99%的机会(p = 0.01)的结果,真的是错误的吗?p=0.001p=0.01


16
在这里阅读@gung的答案可能是值得的。简短地说:对于“显着与不显着”或“拒绝无效假设与不拒绝无效假设”的决定,仅重要的是,值是否低于您在研究设置的α(Neyman&Pearson) 。另一方面,您可以将p值视为针对没有“临界值”的原假设的连续证据度量(费舍尔)。pαp
COOLSerdash

10
您似乎对p值存在严重的误解(p值不是错误概率),如果更正,这可能会帮助您理解为什么您会听到统计学家的某些话。
2014年

10
我承认我有时会使用“非常重要”之类的短语。在报告的其他地方,许多初始结果可能必须针对多次测试进行调整,其中“高度有效”获得了更多的技术含义,“即使在针对多重比较进行了适当的调整之后,仍然保持有效”。即使所有读者都同意要使用的适当(对于由多个涉众使用的分析而言很少见),“重要”与否取决于每个读者在查看报告之前所想到的一组假设。α
ub

7
并非所有的统计学家都说这是错误的。我在(极少见的)场合使用“我自己”一词-例如,表示在此数据上,null会被工作于显着低于我所使用的显着性水平的人员所拒绝,但重要的是不要给它赋予更多含义比它有的。我只是想说一句,在解释这样一个词组的含义时,必须谨慎行事,有时要谨慎行事,而不是特别地错误这里的一些要点是相关的。
Glen_b-恢复莫妮卡2014年

7
(ctd)...相比较而言,我认为更大的担忧是,人们使用的假设检验根本无法回答他们感兴趣的问题(我认为这种情况经常发生)。最好将注意力集中在这个明显而重要的问题上,而不是过分拘泥于小小的愚蠢,因为它们表达了非常小的p值。
Glen_b-恢复莫妮卡2014年

Answers:


17

我认为说结果“非常重要”并没有多大错(尽管是的,这有点草率)。

这意味着,如果您设置的显着性水平小得多,您仍将判断结果为显着。或者,等效地,如果您的某些读者心中的α值小得多,那么他们仍然可以判断您的结果非常重要。αα

请注意,显着性水平在旁观者的眼中,而p值(有一些警告)是数据的属性。αp

观察是不一样的观察p = 0.04,即使两者可称为由外(标准公约“显著” α = 0.05)。微小的p值意味着更有力的证据证明了无效(对于那些喜欢费舍尔假设检验框架的人);这意味着效果大小附近的置信区间将排除具有较大余量的空值(对于那些偏好CI而不是p值的人);这意味着零值的后验概率会较小(对于先验的贝叶斯算法);这一切都是等效的,只是意味着研究结果更具说服力p=1010p=0.04α=0.05pp。请参阅较小的p值是否更有说服力?进行更多讨论。

术语“高度重要”不是精确的,也不必是精确的。这是一种主观的专家判断,类似于观察到令人惊讶的巨大效果大小并将其称为“巨大”(或可能只是“非常大”)。使用数据的定性,主观的描述,即使在科学写作中,也没有错。当然,要提供客观的定量分析。


另请参见上面的一些出色注释,即@ whuber,@ Glen_b和@COOLSerdash的+1。


2
同意 该 -值是一个量化的指标; 因此,像这样的谈话,尽管在某些情况下是不精确的,但实际上并不是无效的,除了说“比尔很高”和“弗雷德真的很高”之外,对英语的使用都是无效的。我们也应该看到数字及其上下文等。这一切都不会阻止那些想要或需要在P < 0.05或做出完全符合自己意愿的事情上做出明智决定的人,但是他们的偏好并不取决于这个。PP<0.05
尼克·考克斯

一点也不马虎。有正式定义的文献证明。
猫头鹰

3

这是一个常见的问题。

类似的问题可能是“为什么p <= 0.05被认为是显着的?” (http://www.jerrydallal.com/LHSP/p05.htm

@ Michael-Mayer给出了答案的一部分:意义只是答案的一部分。有了足够的数据,通常某些参数将显示为“有效”(查找Bonferroni校正)。多重测试是遗传学中的一个特定问题,在大型遗传研究中,寻找重要性的研究很普遍,p值通常<10 -8http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/)。

同样,许多分析的一个问题是它们是机会主义的,而不是预先计划的(即“如果您对数据进行足够的折磨,自然就会认罪。”-罗纳德·科斯)。

通常,如果分析是预先计划的(对统计功效进行重复分析校正),则可以认为它很重要。通常,由多个个人或团体进行重复测试是确认某项功能有效(或无效)的最佳方法。结果的重复通常是对重要性的正确测试。


2

测试是做出黑白决定的工具,即它会尝试回答是/否问题,例如“是否有真正的治疗效果?”。通常,尤其是在数据集很大的情况下,这样的问题相当浪费资源。为什么要问一个二元问题,是否有可能获得诸如“真正的治疗效果有多大?”之类的定量问题的答案?隐式回答了是/否的问题?因此,我们通常建议不要使用包含更多信息的置信区间,而不是高度肯定地回答一个无用的是/否问题。


2
+1,尽管您可能会更明确地回答操作者的问题(不是很明显)。

@马修:我完全同意。
Michael M

谢谢迈克尔。但是我猜想置信区间(给出“连续标度”的答案)将涉及效果大小,对吗?即便如此,是否也不需要二元答案来补充连续答案,即该效果(其大小由CI表示)是否满足商定的α级?也许您甚至可以为p值本身指定CI?
z8080 2014年

(A)“效应大小”通常是指治疗效应的标准化版本,因此比效应本身难于解释。(B)有时会为模拟p值添加p值的CI,以表示模拟不确定性。(C)如果您的水平为0.05,那么在几乎每种测试情况下,可以通过查看相应的95%ci得出测试的黑白决策。
Michael M

(续)您的问题在某种程度上与以下问题有关:陈述99.9999%ci与空值不兼容还是对95%ci的下限具有真正效果是否更有前景?
Michael M
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.