为什么我们拒绝0.05级而不是0.5级的原假设(就像我们在分类中所做的那样)


11

假设检验类似于分类问题。可以这么说,对于观察(主题),我们有2个可能的标签-有罪与无罪。令“非罪”为原假设。如果我们从分类的观点来看问题,我们将训练一个分类器,该分类器在给定数据的情况下预测受试者属于这两个分类中的每一个的概率。然后,我们将选择概率最高的类别。在那种情况下,0.5的概率将是自然阈值。如果我们将不同的成本分配给误报与误报错误,我们可能会更改阈值。但是很少有我们会极端地将阈值设置为0.05,即仅在概率为0.95或更高的情况下才将主体分配为“有罪”类别。但是如果我了解得很好,当我们将相同的问题视为假设检验的问题时,这就是我们作为标准实践所做的事情。在后一种情况下,仅当“非罪犯”的概率小于5%时,我们才不会分配标签“非罪犯”(等同于分配标签“有罪”)。如果我们真正想避免对无辜者定罪,也许这可能是有道理的。但是,为什么在所有领域和所有情况下都应遵循此规则?

确定采用哪种假设等同于在给定数据的情况下定义真相的估计量。在最大似然估计中,我们接受给定数据的可能性更高的假设-尽管绝对可能性更大,但不一定。参见下图:

在此处输入图片说明

如果预测变量的值大于3(例如4),则使用最大似然方法在此示例中我们会偏爱替代假设,尽管从零假设得出该值的可能性将大于0.05。

虽然我开始撰写该帖子的示例可能会引起感慨,但我们可以想到其他情况,例如技术改进。当数据告诉我们新解决方案是一种改进的可能性大于非新解决方案的可能性时,为什么要对状态现状给予这样的优势?


1
从本质上讲,它是基于费舍尔将统计学作为一种科学工具的观点(一次相信一个假设,直到您有足够的证据反对它),以及他的经验表明,标准差似乎在经常拒绝无效假设之间提供了一种有用的平衡。而且不够频繁2
亨利

1
OP是正确的,前提是这里存在缺陷,经典NHST程序中没有要求我们拒绝5%的条件。这是值得商bat的文化现象。
马修·德鲁里

1
@Matthew德鲁:“选择身材高大的人的篮球队”是不是有缺陷的战略,只是因为它不包括多高的精确规则。尽管还有许多其他问题,但是您知道,让用户选择在哪里画线是NHST的一项功能。我对冒险的厌恶并不能排除最近去巴黎或伦敦的旅行,但可以排除对许多国家的访问:其他人会有所不同。我同意,就何时拒绝假设的不同群体有不同的约定而言,这是一种文化现象。
尼克·考克斯

我不确定您在读我的评论尼克。我想我应该更清楚了。我只希望人们在设置问题特定阈值时多加思考。
马修·德鲁里

您似乎在说NHST有缺陷,因为它并不意味着特定的拒绝水平。我同意您针对特定问题的阈值。
Nick Cox

Answers:


17

假设您最终在法庭上却没有这样做。您认为您仍有50%的机会被判有罪是公平的吗?是否有50%的机会无罪“ 有道理的怀疑”?您是否认为即使没有这样做,也有5%的机会被判有罪,这是公平的吗?如果我在法庭上,我会认为5%不够保守。

没错,5%是任意的。我们也可以选择2%或1%,或者如果您书呆子%或%。有些人愿意接受10%,但50%永远不会被接受。πË


回应您对问题的编辑:

如果所有假设均成立,那么您的想法将是合理的。但是,事实并非如此。我们通常会关注替代假设,因此,如果选择较低的则会加强论证。从这个意义上讲,您最初选择的示例很好地说明了这一点。α


6
+1“ 5%是任意的”。学术界的统计学家:“我们教因为那是他们在工业中使用的”。工业统计学家:“我们使用因为这是我们在大学所教的。” α=0.05α=0.05
knrumsey17年

8

就像您说的那样-这取决于误报和误报错误的重要性。

正如Maarten Buis已经回答的那样,在您使用的示例中,如果您有50%的机会是无辜的,则被定罪几乎是不公平的。

在将其应用于研究时,应以这种方式看待:想象一下,您想知道某种新药是否有助于抵抗某种疾病。假设您发现治疗组和对照组之间在支持治疗方面有所不同。大!这种药必须有效,对吗?您可以拒绝药物无效的零假设。您的p值为0.49!您发现的效果更有可能是基于事实而不是偶然!
现在考虑一下:这种药物有不良的副作用。您只有在确信它可行的情况下才想使用它。那是吗 不可以,因为您仍有51%的机会发现两组之间的差异纯属偶然。

我可以想象有些领域令您满意,例如10%。我看过接受10%的文章。我还看到了他们选择2%的文章。这取决于您是否相信拒绝原假设是基于事实而不是偶然的,您认为它有多重要。我很难想象会有这样一种情况,您对50%的机会感到满意的是,发现的差异是基于纯粹的运气。


5

.05.50


您进行“假设检验[类似于]分类问题”。表面上的相似之处只是表面上的;在有意义的意义上,这并不是真的。

.67.67

001000。0¯00p<.5)。结果,您总会得出结论,原假设为假。为了明确起见,您的问题中的错误前提是,可以按照您的建议使用一条有意义的蓝线(如图所示)。

.50


3

要添加到以前的很好的答案中:是的,5%是任意的,但是无论您选择哪个特定阈值,它都必须相当小,否则假设检验就没有意义。

您正在寻找一种效果,并希望确保您的结果并非纯粹出于偶然。在那个程度上,您设置了一个显着性水平,该水平基本上说:“如果实际上没有任何影响(零假设是正确的),那么这就是通过纯机会仍然获得这样的结果(或更极端)的可能性”。将此值设置得太高会导致很多误报,并损害您获得有意义的研究问题答案的能力。

与往常一样,需要进行权衡取舍,因此研究界提出了5%的指导原则。但这在不同领域是不同的。在粒子物理学中,它更像是0.00001%之类的东西。


0

分类和假设检验不同,用法也不同。在大多数情况下,人们使用

  • 执行“分类”以执行“根据共有的品质或特征对事物进行分类”的任务。
  • 并使用“假设检验”来验证一些“重大发现”。

注意,在假设检验中,“零假设”是“常识”,但是如果我们可以拒绝零假设,那么我们会有一个突破。

这就是为什么我们在假设检验中有更严格的标准的原因。想想开发新的阻力的例子,我们要非常小心地说它是有效的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.