何时使用Fisher和Neyman-Pearson框架?


73

最近,我一直在阅读很多有关Fisher假设检验方法和Neyman-Pearson思想流派之间的差异的信息。

我的问题是,暂时忽略哲学上的反对意见。什么时候应该使用Fisher的统计建模方法,什么时候应该使用显着性水平等的Neyman-Pearson方法?是否有一种实用的方法来决定在任何给定的实际问题中应支持哪种观点?


您从哪里读到的?请引用您的消息来源。
xmjx 2012年

Answers:


83

首先,让我先定义讨论的术语。一个p值是得到一个样本统计量(比如,样本平均值)的概率,或进一步从比你的样本统计量有一定的参考价值,如果参考值是真正的总体参数。例如,p值回答了以下问题:获得样本均值IQ大于的概率是多少?如果100确实是从中抽取样本的总体平均值,则该点远离100。现在的问题是,在进行统计推断时应如何使用该数字? |x¯100|

费舍尔认为p值可以解释为针对原假设的连续证据。没有特定的固定值可以使结果变得“显着”。我通常会尽量传达给人们得到这个问题的方法是要指出的是,对于所有意图和目的,P = .049和P = .051构成对零假设的证据的量相同(参见@ Henrik的回答在这里) 。

另一方面,Neyman&Pearson认为您可以将p值用作正式决策过程的一部分。在调查结束时,您必须拒绝原假设,或者无法拒绝原假设。另外,原假设可以是正确的或不正确的。因此,有四种理论上的可能性(尽管在任何给定的情况下只有两种):您可以做出正确的决定(无法拒绝真假假设或拒绝假零假假设),也可以做出类型决定I或II型错误(分别拒绝真实的null或未能拒绝错误的null假设)。(请注意,p值与类型I错误率不同,我将在此处讨论。)p值可用于确定是否要否定原假设的过程。在Neyman-Pearson框架内,该过程将像这样工作:存在一个零假设,即在没有足够相反证据的情况下,人们默认会相信,而另一种假设是您认为可能是对的。您会愿意忍受一些长期错误率(请注意,没有理由将错误率定为5%和20%)。有了这些,您就可以设计研究以区分这两个假设,同时通过进行功效分析并据此进行研究,从而最多保留那些错误率。(通常,这意味着有足够的数据。)研究结束后,将p值与α如果,则拒绝原假设。如果不是,则您无法拒绝原假设。无论哪种方式,您的学习都已经完成,您已经做出了决定。 p<α

Fisherian和Neyman-Pearson方法并不相同。Neyman-Pearson框架的中心论点是,在学习结束时,您必须做出决定并走开。据称,一位研究人员曾经以“不重要”的结果向费舍尔求助,问他应该怎么做,费舍尔说“要获取更多数据”。


就我个人而言,我发现内曼-皮尔森(Neyman-Pearson)方法的优雅逻辑非常吸引人。但是我认为这并不总是合适的。我认为,在考虑Neyman-Pearson框架之前,至少必须满足两个条件:

  1. 由于某种原因,您应该关注一些特定的替代假设(影响幅度)。(我不在乎效果的大小是多少,您的原因是什么,无论它是有根据的还是连贯的等等,仅是您拥有一个。)
  2. 如果替代假设成立,那么应该有一些理由怀疑这种影响将是“显着的”。(实际上,这通常意味着您进行了功率分析,并且具有足够的数据。)

当不满足这些条件时,仍然可以按照Fisher的想法来解释p值。而且,在我看来,大多数情况下这些条件没有得到满足。这里有一些简单的示例,可以在其中运行测试,但不满足上述条件:

  • 总括方差分析的多元回归模型(也可以计算出所有假设的非零斜率参数是如何走到一起,建立一个非集中参数F分布,但它不是远程直观,我怀疑任何人可以)
  • 回归分析中残差的正态性的Shapiro-Wilk检验的值(您关心大小是多少,为什么呢?当该大小正确时,您有多少能力拒绝空值?) W
  • 方差同质性检验的值(例如,Levene检验;与上述相同的注释)
  • 其他任何检验假设的检验等。
  • 研究中主要关注的解释变量以外的协变量的t检验
  • 初步/探索性研究(例如,试点研究)

尽管这是一个较旧的主题,但答案还是值得赞赏的。+1
Stijn

+1好答案!您以如此简洁的方式解释这些概念的能力给我留下了深刻的印象。
COOLSerdash

1
这是一个非常好的答案,@ gung
Patrick S. Forscher

5
AFAIK Neyman-Pearson 使用Fisherian p值,因此使用“ p <alpha”标准。您所谓的“内曼·皮尔逊”实际上是“零假设重要性检验”(Fisher和NP的混合体),而不是纯粹的内曼·皮尔森决策理论。
弗兰克

“如果参考值是真实的人口参数”。准确地说,是“如果概率分布是在原假设中指定的概率分布”。零假设不仅指定了汇总统计信息(例如均值),还指定了整个概率分布。通常将分布族视为隐式(例如正态分布),此时指定参数即可指定分布。
累积

18

实用性在情人眼中,但是;

  • Fisher的重要性检验可以解释为一种决定数据是否暗示任何有趣的“信号”的方式。我们要么拒绝原假设(可能是I型错误),要么什么都不说。例如,在许多现代“组学”应用中,这种解释很合适。我们不想犯太多I型错误,我们想提取最令人兴奋的信号,尽管我们可能会错过一些错误。

  • 当我们决定之间有两个不相交的选择(例如希格斯玻色子存在或不存在)时,内曼·皮尔森的假设就很有意义。除了类型I错误的风险外,在这里我们还可以使类型II错误-当存在真实信号但我们说它不存在时,做出“空”决策。NP的观点是,在不使I型错误率太多的情况下,我们希望将II型错误的风险降到最低。

通常,这两个系统都不是完美的-例如,您可能只需要一个点估计和相应的不确定性度量。此外,它可能无所谓哪个版本使用的,因为你报道的p值,并留下测试解释给读者。但是要在上述方法之间进行选择,请确定II类错误是否与您的应用相关。


5

关键是您不能忽略哲学上的差异。在没有一些基本假设,假设,理论...哲学的情况下,统计学中的数学过程不仅会像您所应用的那样独立存在。

就是说,如果您坚持坚持常客制哲学,那么可能确实需要考虑一些非常特殊的问题,而内曼·皮尔森则是真正需要考虑的问题。他们全都属于质量控制或功能磁共振成像之类的重复测试类别。事先设置一个特定的alpha并考虑整个Type I,Type II和电源框架在该设置中变得更加重要。


我并没有坚持坚持常客主义的统计数据,但我只是想知道是否存在采用费舍尔(Fisher)或内曼·皮尔森(Neyman-Pearson)观点的自然情况。我知道这里有一个哲学上的区别,但是也许还有一个实际方面需要考虑?
Stijn 2012年

3
好吧,几乎就是我所说的...内曼·皮尔森(Neyman-Pearson)确实关心的情况是,您进行了大量的测试,而每个测试都没有任何真正的理论基础。费舍尔的观点并没有真正解决这个问题。
约翰

1

我的理解是:p值告诉我们要相信什么(用足够的数据验证理论),而内曼-皮尔森方法则告诉我们要做什么(即使数据有限也要做出最好的决策)。因此,在我看来(小的)p值更为严格,而Neyman-Pearson方法更为实用。这可能就是为什么在回答科学问题时更多使用p值,而在进行统计/实践决策时更多使用Neyman和Pearson的原因。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.