存在某种思想流派,据此,最广泛的统计检验方法是两种方法之间的“混合”:费舍尔方法和内曼-皮尔森方法;声称,这两种方法是“不兼容的”,因此产生的“混合”是“不相干的杂烩”。我将在下面提供参考书目和一些引号,但就目前而言,在Wikipedia上有关统计假设检验的文章中已经写了很多。在简历上,@ Michael Lew反复提出了这一点(请参见此处和此处)。
我的问题是:为什么声称F和NP方法不兼容,为什么混合方法不连贯?请注意,我至少阅读了六篇反混合论文(请参阅下文),但仍然无法理解问题或论点。还请注意,我不建议讨论F还是NP是否是更好的方法。我也没有提出讨论常客与贝叶斯框架。相反,问题是:如果接受F和NP都是有效且有意义的方法,那么它们的混合到底有什么不好呢?
这是我对情况的了解。Fisher的方法是计算值,并将其作为反对原假设的证据。越小,证据越有说服力。研究人员应该将此证据与他的背景知识相结合,确定其是否足以令人信服,并据此进行研究。(请注意,费舍尔的观点多年来一直在变化,但这似乎是他最终收敛的。)相比之下,内曼·皮尔森的方法是提前选择,然后检查p α p ≤ α; 如果是这样,则将其称为有意义的,并拒绝零假设(在此,我省略了与当前讨论无关的NP故事的大部分内容)。另请参见@gung在何时使用Fisher和Neyman-Pearson框架中的出色答复。
混合方法是计算值,将其报告(隐式假设值越小越好),如果(通常为),则结果也显着,否则为非显着性。这应该是不连贯的。同时击败两个合法的事情怎么可能是无效的。p ≤ α α = 0.05
由于特别不连贯,抗杂交主义者认为报告的普遍做法是,或(甚至),其中总是选择最强的不等式。该论点似乎是:(a)由于没有报告确切的而无法正确评估证据的强度,(b)人们倾向于将不等式中的右手数字解释为并将其视为I型错误。率,那是错误的。我在这里看不到大问题。首先,报告精确的当然是更好的做法,但是没有人真正关心是否为或p < 0.05 p < 0.01 p < 0.001 p « 0.0001 p α p p 0.02 0.03 〜0.0001 0.05 α = 0.05 p ≠ α α,因此在对数刻度上四舍五入并不算太糟糕(反而低于毫无意义,请参阅如何报告微小的p值?)。其次,如果共识是将所有低于东西都称为有效值,那么错误率将为和,如@gung 在假设检验的p值解释中所述。即使这可能是一个令人困惑的问题,但与统计测试中的其他问题相比(在混合动力之外),这并不令我感到困惑。另外,每个读者在阅读混合论文时都可以记住自己喜欢的,因此会产生自己的错误率。那么有什么大不了的呢?
我想问这个问题的原因之一是,因为查看统计假设检验的Wikipedia文章中有多少专门用于抨击混合,实在令人感到痛苦。在Halpin&Stam之后,它声称一定要归咎于Lindquist(甚至对他的教科书进行了大量扫描,并以黄色突出显示“错误”),当然,有关Lindquist本人的Wiki文章也以同样的指控开头。但是,也许我错过了一些东西。
参考文献
Gigerenzer,1993年,《超我》,《自我》和统计推理中的id – 引入了术语“ hybrid”,并将其称为“ incoherent mishmash”
- 另请参见Gigerenzer等人的近期展览:例如Mindless statistics(2004)和The Null Ritual。关于重要性测试,您一直想知道的东西却不敢问(2004年)。
科恩(Cohen),1994年,《地球是圆的》() - 一篇非常受欢迎的论文,被引用近3k,主要涉及不同问题,但引用了吉格伦泽(Gigerenzer)
Goodman,1999年,迈向基于证据的医学统计。1:P值谬误
Hubbard&Bayarri,2003年,关于经典统计测试中的证据度量( 's)与错误度量( 's)的混淆α - 较雄辩的论文之一,反对“混合”
Halpin&Stam,2006年,归纳推理或归纳行为:心理研究中统计测试的Fisher和Neyman-Pearson方法(1940-1960年) [注册后免费] –怪罪Lindquist在1940年教科书中引入了“混合”方法
@迈克尔卢,2006年,在药理学(和其他基础生物医学学科)坏的统计做法:你可能不知道P - 一个很好的回顾和综述
行情
Gigerenzer:作为心理学的推理统计已经制度化的不是费舍尔统计。一方面,它是费舍尔的某些思想的混搭,另一方面是内曼和ES皮尔逊的某些思想的混杂。我将这种混合称为统计推断的“混合逻辑”。
Goodman: [Neyman-Pearson]假设检验方法为科学家们提供了浮士德式的讨价还价的机会–从长远来看,这似乎是自动的方法,可以限制错误结论的数量,但只能通过放弃测量证据的能力[la Fisher]一次实验的真相。
Hubbard&Bayarri:古典统计检验是竞争性方法和经常相互矛盾的方法的匿名混合。特别是,人们普遍没有意识到Fisher的证据值与Neyman-Pearson统计正统的I型错误率不兼容。[...]作为[此]混合[...]引起的困惑的主要示例,请考虑一个广为人知的事实,即前者的值不兼容α p内曼-皮尔森假设检验已嵌入其中。[...]例如,吉本斯和普拉特错误地指出:“报告P值,无论是精确的还是间隔内的,实际上允许每个人选择自己的显着性水平作为最大可容许的概率类型I错误。”
Halpin&Stam: Lindquist在1940年的著作是Fisher和Neyman-Pearson方法杂交的原始资料。心理学家并未坚持对统计检验的任何特定解释,而是一直对费舍尔和内曼·皮尔森争议所牵涉的概念上的困难持怀疑态度,并且实际上基本上没有意识到。
刘:我们拥有的是一种混合方法,既不能控制错误率,也不能评估证据的强度。