Fisher和Neyman-Pearson方法之间进行统计测试的“混合”真的是“不连贯的杂烩”吗?


56

存在某种思想流派,据此,最广泛的统计检验方法是两种方法之间的“混合”:费舍尔方法和内曼-皮尔森方法;声称,这两种方法是“不兼容的”,因此产生的“混合”是“不相干的杂烩”。我将在下面提供参考书目和一些引号,但就目前而言,在Wikipedia上有关统计假设检验的文章中已经写了很多。在简历上,@ Michael Lew反复提出了这一点(请参见此处此处)。

我的问题是:为什么声称F和NP方法不兼容,为什么混合方法不连贯?请注意,我至少阅读了六篇反混合论文(请参阅下文),但仍然无法理解问题或论点。还请注意,我不建议讨论F还是NP是否是更好的方法。我也没有提出讨论常客与贝叶斯框架。相反,问题是:如果接受F和NP都是有效且有意义的方法,那么它们的混合到底有什么不好呢?


这是我对情况的了解。Fisher的方法是计算值,并将其作为反对原假设的证据。越小,证据越有说服力。研究人员应该将此证据与他的背景知识相结合,确定其是否足以令人信服,并据此进行研究。(请注意,费舍尔的观点多年来一直在变化,但这似乎是他最终收敛的。)相比之下,内曼·皮尔森的方法是提前选择,然后检查p α p αppαpα; 如果是这样,则将其称为有意义的,并拒绝零假设(在此,我省略了与当前讨论无关的NP故事的大部分内容)。另请参见@gung在何时使用Fisher和Neyman-Pearson框架中的出色答复

混合方法是计算值,将其报告(隐式假设值越小越好),如果(通常为),则结果也显着,否则为非显着性。这应该是不连贯的。同时击败两个合法的事情怎么可能是无效的。p α α = 0.05ppαα=0.05

由于特别不连贯,抗杂交主义者认为报告的普遍做法是,或(甚至),其中总是选择最强的不等式。该论点似乎是:(a)由于没有报告确切的而无法正确评估证据的强度,(b)人们倾向于将不等式中的右手数字解释为并将其视为I型错误。率,那是错误的。我在这里看不到大问题。首先,报告精确的当然是更好的做法,但是没有人真正关心是否为或p < 0.05 p < 0.01 p < 0.001 p « 0.0001 p α p p 0.02 0.03 0.0001 0.05 α = 0.05 p α αpp<0.05p<0.01p<0.001p0.0001pαpp0.020.03,因此在对数刻度上四舍五入并不算太糟糕(反而低于毫无意义,请参阅如何报告微小的p值?)。其次,如果共识是将所有低于东西都称为有效值,那么错误率将为和,如@gung 在假设检验的p值解释中所述。即使这可能是一个令人困惑的问题,但与统计测试中的其他问题相比(在混合动力之外),这并不令我感到困惑。另外,每个读者在阅读混合论文时都可以记住自己喜欢的,因此会产生自己的错误率。0.00010.05α=0.05pαα那么有什么大不了的呢?

我想问这个问题的原因之一是,因为查看统计假设检验的Wikipedia文章中有多少专门用于抨击混合,实在令人感到痛苦。在Halpin&Stam之后,它声称一定要归咎于Lindquist(甚至对他的教科书进行了大量扫描,并以黄色突出显示“错误”),当然,有关Lindquist本人的Wiki文章也以同样的指控开头。但是,也许我错过了一些东西。


参考文献

行情

Gigerenzer:作为心理学的推理统计已经制度化的不是费舍尔统计。一方面,它是费舍尔的某些思想的混搭,另一方面是内曼和ES皮尔逊的某些思想的混杂。我将这种混合称为统计推断的“混合逻辑”。

Goodman: [Neyman-Pearson]假设检验方法为科学家们提供了浮士德式的讨价还价的机会–从长远来看,这似乎是自动的方法,可以限制错误结论的数量,但只能通过放弃测量证据的能力[la Fisher]一次实验的真相。

Hubbard&Bayarri:古典统计检验是竞争性方法和经常相互矛盾的方法的匿名混合。特别是,人们普遍没有意识到Fisher的证据值与Neyman-Pearson统计正统的I型错误率不兼容。[...]作为[此]混合[...]引起的困惑的主要示例,请考虑一个广为人知的事实,即前者的值不兼容α ppαp内曼-皮尔森假设检验已嵌入其中。[...]例如,吉本斯和普拉特错误地指出:“报告P值,无论是精确的还是间隔内的,实际上允许每个人选择自己的显着性水平作为最大可容许的概率类型I错误。”

Halpin&Stam: Lindquist在1940年的著作是Fisher和Neyman-Pearson方法杂交的原始资料。心理学家并未坚持对统计检验的任何特定解释,而是一直对费舍尔和内曼·皮尔森争议所牵涉的概念上的困难持怀疑态度,并且实际上基本上没有意识到。

刘:我们拥有的是一种混合方法,既不能控制错误率,也不能评估证据的强度。


对于这个经过充分研究(即使很长)的问题,+ 1。我认为这也许会有助于继续指定确切的混淆之处。是否足以知道,对于Fisher而言,根本没有替代假设,而对于NP,可能性世界既被零替代又被替代穷尽了?对我来说似乎不够连贯,可惜我一直都在做混合事情,因为你无法避免,所以它变得根深蒂固。
Momo 2014年

2
@Momo:对您来说,“到底是什么让人困惑”的问题-嗯,令人困惑的是反混合言论的疯狂。“不连贯的杂烩”是很强的词,所以我想看到一个非常糟糕的不一致之处。您对替代假设所说的话听起来并不像我(在的花园变种情况下,替代选择显然是,而且我认为不一致的余地不大),但是,如果我想不到您的观点,那么也许您想提供答案。H 1μ 0H0:μ=0H1:μ0
变形虫说恢复莫妮卡

2
刚读过Lew(意识到我可能在2006年左右就读过它),我发现它相当不错,但是我不认为它代表了我如何使用p值。我的显着性水平-在极少数情况下我根本不使用假设检验*-始终是最重要的,在考虑了功效之后,我可以控制样本量,在考虑了两种误差类型的代价后,等等-本质上是内曼·皮尔森(Neyman-Pearson)。我仍然引用p值,但不在费舍尔方法的框架内....(ctd)
Glen_b 2014年

2
(ctd)... *(我经常使人们远离假设检验-因此,他们的实际问题通常与衡量效果有关,最好通过构建间隔来回答)。卢为“混合”程序提出的具体问题适用于我不做的事情,并且会警告人们不要这样做。如果有人真的在做他暗示的方法混合,那么这篇论文似乎还不错。关于p值的含义和方法历史的早期讨论似乎很棒。
Glen_b 2014年

1
@ Glen_b,Lew的历史概况非常清晰,我完全同意。我的麻烦特别是与混合问题有关(“哪种方法最常用?”一节)。当然,有些人按照他的描述进行操作,即报告p <.001,<。01或<.05的最强值;我一直在神经科学领域看到这一点。当您使用测试时,请考虑其中一种情况。您选择例如alpha = .05,并遵循NP框架。当您获得p = .00011时,您对H1的确定性以及您选择的措词是否会与获得p = .049时的情况有所不同?如果是这样,那就是混合动力!如果没有,怎么来?
变形虫说恢复莫妮卡2014年

Answers:


16

我相信您努力收集的论文,文章,帖子等包含有关两种方法在何处以及为何不同的足够信息和分析。但是与众不同并不意味着不相容

与“混合”的问题是,它是一种混合,而不是合成,这就是为什么它被许多人视为的hybris,如果你原谅的文字游戏。
它不是一种综合,它不会尝试结合两种方法的差异,也不会创建一个统一且内部一致的方法,或者将这两种方法作为补充方案保留在科学武器库中,以便更有效地处理非常复杂的方法。我们试图通过统计数据来分析这个世界(幸运的是,这最后一件事似乎是该领域的另一场内战-常客-贝叶斯战争)。

我相信它的不满来自以下事实:它在使用统计工具和解释统计结果时确实造成了误解,主要是由不是统计学家的科学家误解了,这种误解可能会产生非常严重的破坏性影响(对这一领域的思考)。药物有助于赋予其适当的戏剧性基调)。我认为这种误用已被广泛接受为事实,从这个意义上讲,“反混合”观点可以被认为是广泛的(至少是由于其后果,如果不是由于其方法论问题而造成的话)。

由于创始人之间的不幸战斗,我认为此事的演变是历史性的意外(但我的假设没有值或拒绝区域)。费舍尔(Fisher)和内曼/皮尔森(Neyman / Pearson)经过数十年的苦战和公开斗争。这给人的印象是,这里是两分法:一种方法必须是“正确”,而另一种则必须是“错误”。p

混合动力出现了,我相信,从实现的,没有这样一个简单的答案存在,而且有现实世界的现象,其中一个方法更适合比其他(见这个职位对于这样一个例子,根据我在至少在渔业方法似乎更合适的地方)。但是他们并没有保持两个“分开并准备采取行动”,而是把它们多余地修补了在一起。

我提供的资料总结了这种“互补替代”方法: Spanos,A.(1999)。概率论与统计推断:带有观测数据的计量经济学建模。剑桥大学出版社。CH。14,尤其是第14.5节,在正式和清晰地介绍了这两种方法之后,作者可以清楚地指出它们之间的差异,并且认为可以将它们视为互补的选择。


6
(+1)感谢您的评论,并同意其中的许多观点。但是我不确定您所说的混合动力“造成了误解”(此外,这“被广泛接受为事实”)到底指的是什么。你能举一些例子吗?要对混合动力进行攻击,应该是仅在F或NP方法中不会引起误解的例子。您是指我在问题中提到的和之间的潜在混淆,还是其他?除此之外,谢谢,我已经在Spanos中阅读了14.5节。αpα
变形虫说恢复莫妮卡2014年

6
明显的问题确实是问题。更微妙的是,我认为更重要的是,杂种结合了Fisher的探索性风味(更多的是将决定权交给研究人员)和NP的更正式方法。因此,研究人员本着一种渔业精神解决了这一问题,但随后声称NP方法具有很强的“拒绝/接受”权重,从原则上讲,这些结论更可信。CONTDpα
Alecos Papadopoulos

6
对我而言,这是混合方法的“吃蛋糕也吃”的问题。例如,没有功率测试计算的NP方法应该是不可想象的,但是我们一直看到NP框架中进行了测试,却没有提及功率计算。
Alecos Papadopoulos

离题,但是...由于您引用了Aris Spanos,所以我想知道您是否能够回答有关他的方法论的问题?(我曾经直接向Aris Spanos问这个问题,他恳求做出回答要付出一些努力。不幸的是,他的回答与他的论文使用的语言相同,因此对我没有太大帮助。)
理查德·哈迪

13

我自己的问题是,在混合(即接受)方法中没有什么特别不一致的地方。但是由于不确定我是否可能不理解反杂交论文中提出的论点的有效性,因此很高兴找到与本文一起发表的讨论:

不幸的是,作为讨论发表的两个答复没有被格式化为单独的文章,因此无法正确引用。不过,我还是要引用他们两个的话:

Berk:第2节和第3节的主题似乎是Fisher并不喜欢Neyman和Pearson所做的事情,而Neyman也不喜欢Fisher所做的事情,因此我们不应做任何将两种方法结合起来的事情。这里没有逃避前提,但是推理逃脱了我。

卡尔顿:作者们坚决认为,大多数混淆源于Fisherian和Neyman-Pearsonian观念的结合,这种结合对于现代统计学家来说是一个灾难性的错误[...] I型错误不能在同一Universe中共存。目前尚不清楚作者是否给出了不能在同一句子中说出“ p值”和“ I类错误”的任何实质原因。[...]他们的[F和NP]不兼容的“事实”对我来说是一个令人惊讶的消息,因为我确信这对阅读本文的成千上万合格统计学家来说确实如此。作者甚至似乎暗示,统计学家现在应该离婚这两个想法的原因之一是,费舍尔和内曼并不十分喜欢彼此(或彼此不喜欢)。关于测试的哲学)。我一直认为我们目前的实践是费舍尔和内曼哲学的融合,允许讨论P值和I型错误(当然不是并行地讨论),这是我们学科的更大成就之一。

两种回复都非常值得一读。还有一个反驳原作者,这听起来并不令人信服我在所有


1
并存是一回事,一个被视为另一回事是另一回事。但是确实,这种反混合方法是本着“完全没有任何合成”的精神,我对此表示强烈反对。但是我不认为目前的混合动力是成功的婚姻。
Alecos Papadopoulos 2014年

2
@Livid,感谢您的评论,这很有趣,但是我想避免在这里进行进一步的讨论。如果您愿意,我希望您发布一个新的答案。但是,如果您决定这样做,请尝试着眼于主要问题,即:与单独使用Fisher和NP相比,“混合”的缺点何在。您似乎讨厌重要性检验的整个方法,“零假设”等,但这不是这个问题的意思!
变形虫说恢复莫妮卡

1
@Livid:嗯,你能真正阐明为什么你说那是混合动力车的显着特征吗?纯Fisher或纯NP中的空值是什么?假设您有两组,并且要测试有显着差异(“ nil null”)。一种方法不能用三种方法(纯Fisher,纯NP和混合方法)来处理这种情况吗?
变形虫说恢复莫妮卡

2
@Livid,我了解您反对nil null的观点,我只是认为此问题与Hybrid问题正交。我必须刷新内存中的反混合文件,但据我所知,他们对混合动力汽车的批评根本不是以零无效为中心。相反,它是关于组合Fisher和NP。同样,如果您不同意此建议,请考虑发布答案。目前,让我们保留它。
变形虫说恢复莫妮卡

2
给我自己的注释:我应该在本文中引用一些引语:Lehmann,1992年,Fisher,Neiman-Pearson的假设检验理论:一个理论还是两个?
变形虫说恢复莫妮卡

8

我担心要真正回答这个问题,需要写一篇全长论文。但是,这里有一些问题或当前答案中都没有的要点。

  1. 错误率“属于”程序,而证据“属于”实验结果。因此,具有顺序停止规则的多阶段程序有可能获得非常强大的证据来证明原假设,但假设检验结果并不重要。可以认为这是强烈的不兼容性。

  2. 如果您对不兼容感兴趣,那么您应该对基本哲学感兴趣。哲学上的困难来自在遵守似然原则和遵守重复抽样原则之间的选择。LP粗略地说,在给定统计模型的情况下,数据集中与感兴趣参数相关的证据完全包含在相关似然函数中。RSP说,人们应该更喜欢长期提供错误率等于其标称值的测试。


3
我认为,JO Berger和RL Wolpert的专着“ The Likelihood Principle”(第二版,1988年)是对第2点的冷静,平衡和很好的阐述。
2014年

5
伯杰和沃尔珀特确实是一个很好的阐述者,也是权威。但是,我更喜欢AWF Edwards的实用性更强,数学意义更小的书“ Likelihood”。我认为仍在印刷中。books.google.com.au/books/about/Likelihood.html?id=LL08AAAAIAAJ
Michael Lew

2
@MichaelLew解释说有效使用p值是效果大小的摘要。他通过写这篇论文做了一件了不起的事情:arxiv.org/abs/1311.0081
Livid

@Livid这篇论文v很有趣,但是对于新读者来说,值得注意以下几点:主要思想是,p值“索引”(可能是:与之成一对关系)通常被认为是错误的,因为在某些情况下,根据采样方案,相同的可能性对应于不同的p值。本文对此问题进行了一些讨论,但是索引编制是一个非常不寻常的职位(当然,不一定会使它出错)。
2016年

8

两种方法之间经常见到(并且应该被接受)联合(或更优:“混合”)如下:

  1. α
  2. Ho:μ=0H1:μ0
  3. α

    α

    • Ho
    • HoH1
    • 100%(1α)H1

    如果p值不够小,您会说

    • Ho
    • HoH1

以下是Neyman-Pearson的观点:

  • 你决定什么
  • Ho
  • 你知道我的错误率

渔业方面是:

  • 您陈述p值。因此,任何读者都可以使用自己的水平(例如,严格纠正多次测试)进行决策
  • 基本上,只需要零假设,因为选择恰好相反
  • μ0

添加在

虽然很高兴知道有关Fisher,NP或这种混合方法的哲学问题的讨论(有些人几乎是出于宗教狂热地讲授),但统计中还有许多相关的问题需要解决:

  • 询问不具信息性的问题(例如二进制“是/否”问题而不是定量的“多少”问题,即使用测试代替置信区间)
  • 数据驱动的分析方法会导致结果有偏差(逐步回归,测试假设等)
  • 选择错误的测试或方法
  • 误解结果
  • 将经典统计信息用于非随机样本

1
(+1)这是对混合动力的一个很好的描述(以及为什么它是混合动力的),但是您没有明确说明对混合动力的评价。您是否同意您所描述的是“不连贯的杂烩”?如果是这样,为什么?还是您认为这是合理的程序?如果是这样,声称它不连贯的人有观点吗?还是他们只是错了?
变形虫说恢复莫妮卡2014年

1
α

4

接受F和NP都是有效且有意义的方法,那么他们的混合到底有什么不好呢?

简短的答案:不管上下文如何,均使用零(无差异,无相关)零假设。其他一切都是那些为过程创造了神话的人的“误用”。神话源于人们试图调和(有时是适当的)对权威和共识启发法的信任与程序对他们问题的不适用。

据我所知,Gerd Gigerenzer想出了“混合”一词:

我问过作者(一位杰出的统计教科书作者,他的书经历了许多版本,名字都没关系)为什么他从随后的所有版本中都删除了关于贝叶斯的章节以及无辜的句子。“是什么使您呈现的统计数据好像只有一把锤子,而不是一个工具箱?您为什么将费舍尔理论和内曼·皮尔森理论混合在一起,却被每个体面的统计学家都会拒绝的不一致的混合?

值得称赞的是,我并没有试图否认撰文人产生了只有一种工具的幻想。但是他让我知道是谁对此负责。罪魁祸首有三名:他的研究员,大学行政管理人员和他的出版商。他认为,大多数研究人员对统计思维并不真正感兴趣,而只是对如何发表论文[...]

空礼:

  1. 建立“无均值差”或“零相关”的统计零假设。不要指定您的研究假设或任何替代的实质假设的预测。

  2. p<0.05p<0.01p<0.001p

  3. 始终执行此过程。

Gigerenzer,G(2004年11月)。《无心统计》。社会经济杂志33(5):587–606。doi:10.1016 / j.socec.2004.09.033。

编辑:而且我们应该经常提及,因为“混合”是如此的光滑且定义不清,因此使用nil null来获得p值非常适合作为在给定不同样本大小的情况下比较效果大小的一种方法。引入问题的是“测试”方面。

编辑2:@amoeba一个p值可以作为汇总统计信息,在这种情况下,nil零假设只是一个任意的地标:http ://arxiv.org/abs/1311.0081 。但是,一旦您开始尝试得出结论或做出决定(即“测试”原假设),它就会失去意义。在比较两组的示例中,我们想知道两组的区别,并且对于该大小和类型的差异可能有各种可能的解释。

p值可以用作汇总统计量,告诉我们差异的大小。但是,用它来“证明/拒绝”零差没有任何目的。此外,我认为许多在单个时间点比较生物平均测量值的研究设计被误导了。我们应该要观察系统的各个实例如何随时间变化,然后提出一个过程来解释观察到的模式(包括任何组差异)。


2
+1,感谢您的回答和链接。看来我还没有读过这篇特别的论文,我来看看。就像我之前说过的那样,我印象深刻的是,“ nil null”是一个与“ hybrid”问题正交的问题,但是我想我应该重新阅读Gigerenzer的著作以确认这一点。将尝试在接下来的几天里找到时间。除此之外:您能否澄清您的最后一段(“编辑”)?我是否正确理解您的意思是说,在比较两个效果大小时将nil为零是可以的,但是在将效果大小为零时将nil为null是不可以的吗?
变形虫说恢复莫妮卡

1

我看到那些比我更专业的人提供了答案,但是我认为我的答案有可能增加一些补充,因此,我将这作为另一门外行的观点。

混合方法是否不连贯?  我要说的是,这取决于研究人员最终是否会与他们最初制定的规则不一致:特别是与alpha值设置有关的是/否规则。

不连贯

从内曼·皮尔森开始。研究人员设定alpha = 0.05,进行实验,计算p = 0.052。研究人员查看了该p值,并使用Fisherian推断(通常是隐式地),认为结果与测试假设足够不相容,因为他们仍然认为“某种情况”仍在继续。即使p值大于alpha值,结果还是“足够好”。通常,这与“近乎重要的”或“趋向重要的趋势”之类的语言或沿这些方向的某些措辞搭配使用。

但是,在运行实验之前设置Alpha值意味着已经选择了Neyman-Pearson归纳行为的方法。在计算p值之后选择忽略该alpha值,从而声称仍然有些有趣,这破坏了人们一开始的整个方法。如果研究人员从路径A(Neyman-Pearson)处开始,但是一旦他们不喜欢所走的路径又跳到另一条路径(Fisher),我认为这是不连贯的。它们与开始时的(隐含)规则不一致。

连贯(可能)

从NP开始。研究人员设定alpha = 0.05,进行实验,计算p = 0.0014。研究人员观察到p <alpha,从而拒绝了检验假设(通常没有效果为零),并接受了另一种假设(效果是真实的)。此时,研究人员除了决定将结果视为真实效果(NP)外,还决定推断(Fisher)该实验提供了非常有力的证据证明该效果是真实的。他们为开始使用的方法增加了细微差别,但并未与开始时选择的alpha值相矛盾。

摘要

如果选择一个Alpha值作为起点,那么就决定采用Neyman-Pearson的方法,并遵循该方法的规则。如果他们在某些时候违反了那些以Fisherian推断为依据的规则,那么他们的行为就会前后不一致。

我想,人们可以更进一步,并声明,因为它可能给语无伦次使用混合动力,因此这种方法本质上是不连贯的,但似乎是越来越深入到哲学方面,我不认为自己有资格连提供意见。

给迈克尔·卢的小费。他在2006年发表的文章比其他任何资源都帮助我更好地理解了这些问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.