当p值远低于传统的α水平0.05时,为什么统计学家不鼓励我们将结果称为“ 高度显着” ?
相信有99.9%的机会不会成为I型错误()而不是仅给您99%的机会(p = 0.01)的结果,真的是错误的吗?
当p值远低于传统的α水平0.05时,为什么统计学家不鼓励我们将结果称为“ 高度显着” ?
相信有99.9%的机会不会成为I型错误()而不是仅给您99%的机会(p = 0.01)的结果,真的是错误的吗?
Answers:
我认为说结果“非常重要”并没有多大错(尽管是的,这有点草率)。
这意味着,如果您设置的显着性水平小得多,您仍将判断结果为显着。或者,等效地,如果您的某些读者心中的α值小得多,那么他们仍然可以判断您的结果非常重要。
请注意,显着性水平在旁观者的眼中,而p值(有一些警告)是数据的属性。
观察是不一样的观察p = 0.04,即使两者可称为由外(标准公约“显著” α = 0.05)。微小的p值意味着更有力的证据证明了无效(对于那些喜欢费舍尔假设检验框架的人);这意味着效果大小附近的置信区间将排除具有较大余量的空值(对于那些偏好CI而不是p值的人);这意味着零值的后验概率会较小(对于先验的贝叶斯算法);这一切都是等效的,只是意味着研究结果更具说服力。请参阅较小的p值是否更有说服力?进行更多讨论。
术语“高度重要”不是精确的,也不必是精确的。这是一种主观的专家判断,类似于观察到令人惊讶的巨大效果大小并将其称为“巨大”(或可能只是“非常大”)。使用数据的定性,主观的描述,即使在科学写作中,也没有错。当然,要提供客观的定量分析。
另请参见上面的一些出色注释,即@ whuber,@ Glen_b和@COOLSerdash的+1。
这是一个常见的问题。
类似的问题可能是“为什么p <= 0.05被认为是显着的?” (http://www.jerrydallal.com/LHSP/p05.htm)
@ Michael-Mayer给出了答案的一部分:意义只是答案的一部分。有了足够的数据,通常某些参数将显示为“有效”(查找Bonferroni校正)。多重测试是遗传学中的一个特定问题,在大型遗传研究中,寻找重要性的研究很普遍,p值通常<10 -8(http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/)。
同样,许多分析的一个问题是它们是机会主义的,而不是预先计划的(即“如果您对数据进行足够的折磨,自然就会认罪。”-罗纳德·科斯)。
通常,如果分析是预先计划的(对统计功效进行重复分析校正),则可以认为它很重要。通常,由多个个人或团体进行重复测试是确认某项功能有效(或无效)的最佳方法。结果的重复通常是对重要性的正确测试。
测试是做出黑白决定的工具,即它会尝试回答是/否问题,例如“是否有真正的治疗效果?”。通常,尤其是在数据集很大的情况下,这样的问题相当浪费资源。为什么要问一个二元问题,是否有可能获得诸如“真正的治疗效果有多大?”之类的定量问题的答案?隐式回答了是/否的问题?因此,我们通常建议不要使用包含更多信息的置信区间,而不是高度肯定地回答一个无用的是/否问题。