为了回应越来越多的统计学家和研究人员批评将零假设检验(NHT)用于科学作为一种累积努力的做法,美国心理学会统计推断工作组避免了彻底禁止NHT的禁令,而是建议研究人员除了从NHT导出的p值外,还报告效果大小。
但是,效果大小在整个研究中不容易累积。元分析方法可以累积效应量的分布,但是效应量通常以原始效应量与给定实验数据中无法解释的“噪声”之比来计算,这意味着效应量的分布不仅受各个研究之间的原始效果差异很大,而且各个研究之间的噪音表现也存在差异。
相比之下,效应强度的替代度量,似然比既可以在逐项研究的基础上进行直观的解释,又可以轻松地在各个研究中汇总以进行荟萃分析。在每项研究中,似然度代表包含给定效果的模型相对于不包含效果的模型的证据权重,通常可以报告为例如“计算X效果的似然比”揭示了该效应的证据是其无效证据的8倍。” 此外,似然比还允许直观表示无效结果的强度,因为低于1的似然比表示赞成采用无效的情况,取该值的倒数表示无效对效果的证据权重。值得注意的是 似然比在数学上表示为两个模型的无法解释的方差之比,其差异仅在于效应所解释的方差,因此在概念上与效应大小没有太大的偏差。另一方面,荟萃分析似然比的计算代表了整个研究中某项效应的证据权重,这仅仅是取各个研究中似然比的乘积即可。
因此,我认为,对于寻求建立有利于效应/模型的总体证据程度的科学而言,似然比是可行的方法。
在更细微的情况下,模型仅在效果的特定大小上才是可区分的,在这种情况下,我们认为区间的某种表示形式(我们认为数据与效果参数值一致)可能是首选的。确实,APA工作组还建议报告置信区间,可以将其用于此目的,但是我怀疑这也是一种考虑不周的方法。
令人遗憾的是,置信区间经常被误解(被学生和研究人员都误解了)。我还担心它们在NHT中的使用能力(通过评估CI中是否包含零)将只会进一步推论NHT的灭绝。
相反,当理论只能通过效应的大小来区分时,我建议贝叶斯方法会更合适,因为每种效应的先验分布由每个模型分别定义,然后比较所得的后验分布。
这种方法用似然比替换p值,影响大小和置信区间,并且在必要时用贝叶斯模型比较是否似乎足够?是否错过了此处所针对的替代方案所提供的某些必要的推论功能?