最近,我一直在阅读很多有关Fisher假设检验方法和Neyman-Pearson思想流派之间的差异的信息。
我的问题是,暂时忽略哲学上的反对意见。什么时候应该使用Fisher的统计建模方法,什么时候应该使用显着性水平等的Neyman-Pearson方法?是否有一种实用的方法来决定在任何给定的实际问题中应支持哪种观点?
最近,我一直在阅读很多有关Fisher假设检验方法和Neyman-Pearson思想流派之间的差异的信息。
我的问题是,暂时忽略哲学上的反对意见。什么时候应该使用Fisher的统计建模方法,什么时候应该使用显着性水平等的Neyman-Pearson方法?是否有一种实用的方法来决定在任何给定的实际问题中应支持哪种观点?
Answers:
首先,让我先定义讨论的术语。一个p值是得到一个样本统计量(比如,样本平均值)的概率远,或进一步从比你的样本统计量有一定的参考价值,如果参考值是真正的总体参数。例如,p值回答了以下问题:获得样本均值IQ大于的概率是多少?如果100确实是从中抽取样本的总体平均值,则该点远离100。现在的问题是,在进行统计推断时应如何使用该数字?
费舍尔认为p值可以解释为针对原假设的连续证据。没有特定的固定值可以使结果变得“显着”。我通常会尽量传达给人们得到这个问题的方法是要指出的是,对于所有意图和目的,P = .049和P = .051构成对零假设的证据的量相同(参见@ Henrik的回答在这里) 。
另一方面,Neyman&Pearson认为您可以将p值用作正式决策过程的一部分。在调查结束时,您必须拒绝原假设,或者无法拒绝原假设。另外,原假设可以是正确的或不正确的。因此,有四种理论上的可能性(尽管在任何给定的情况下只有两种):您可以做出正确的决定(无法拒绝真假假设或拒绝假零假假设),也可以做出类型决定I或II型错误(分别拒绝真实的null或未能拒绝错误的null假设)。(请注意,p值与类型I错误率不同,我将在此处讨论。)p值可用于确定是否要否定原假设的过程。在Neyman-Pearson框架内,该过程将像这样工作:存在一个零假设,即在没有足够相反证据的情况下,人们默认会相信,而另一种假设是您认为可能是对的。您会愿意忍受一些长期错误率(请注意,没有理由将错误率定为5%和20%)。有了这些,您就可以设计研究以区分这两个假设,同时通过进行功效分析并据此进行研究,从而最多保留那些错误率。(通常,这意味着有足够的数据。)研究结束后,将p值与如果,则拒绝原假设。如果不是,则您无法拒绝原假设。无论哪种方式,您的学习都已经完成,您已经做出了决定。
Fisherian和Neyman-Pearson方法并不相同。Neyman-Pearson框架的中心论点是,在学习结束时,您必须做出决定并走开。据称,一位研究人员曾经以“不重要”的结果向费舍尔求助,问他应该怎么做,费舍尔说“要获取更多数据”。
就我个人而言,我发现内曼-皮尔森(Neyman-Pearson)方法的优雅逻辑非常吸引人。但是我认为这并不总是合适的。我认为,在考虑Neyman-Pearson框架之前,至少必须满足两个条件:
当不满足这些条件时,仍然可以按照Fisher的想法来解释p值。而且,在我看来,大多数情况下这些条件没有得到满足。这里有一些简单的示例,可以在其中运行测试,但不满足上述条件:
实用性在情人眼中,但是;
Fisher的重要性检验可以解释为一种决定数据是否暗示任何有趣的“信号”的方式。我们要么拒绝原假设(可能是I型错误),要么什么都不说。例如,在许多现代“组学”应用中,这种解释很合适。我们不想犯太多I型错误,我们想提取最令人兴奋的信号,尽管我们可能会错过一些错误。
当我们决定之间有两个不相交的选择(例如希格斯玻色子存在或不存在)时,内曼·皮尔森的假设就很有意义。除了类型I错误的风险外,在这里我们还可以使类型II错误-当存在真实信号但我们说它不存在时,做出“空”决策。NP的观点是,在不使I型错误率太多的情况下,我们希望将II型错误的风险降到最低。
通常,这两个系统都不是完美的-例如,您可能只需要一个点估计和相应的不确定性度量。此外,它可能无所谓哪个版本您使用的,因为你报道的p值,并留下测试解释给读者。但是要在上述方法之间进行选择,请确定II类错误是否与您的应用相关。
关键是您不能忽略哲学上的差异。在没有一些基本假设,假设,理论...哲学的情况下,统计学中的数学过程不仅会像您所应用的那样独立存在。
就是说,如果您坚持坚持常客制哲学,那么可能确实需要考虑一些非常特殊的问题,而内曼·皮尔森则是真正需要考虑的问题。他们全都属于质量控制或功能磁共振成像之类的重复测试类别。事先设置一个特定的alpha并考虑整个Type I,Type II和电源框架在该设置中变得更加重要。