为什么统计学家说不重要的结果意味着“您不能拒绝零”而不是接受零假设?


44

像两个样本t检验一样,传统的统计检验集中在试图消除以下假设:两个独立样本的函数之间没有差异。然后,我们选择一个置信度,并说如果均值差超过95%,我们可以拒绝原假设。如果不是,我们“不能拒绝原假设”。这似乎意味着我们也不能接受它。这是否意味着我们不确定原假设是否成立?

现在,我想设计一个假设是两个样本的函数相同的检验(这与假设两个样本不同的传统统计检验相反)。因此,我的原假设是两个样本不同。我应该如何设计这样的测试?简单地说,如果p值小于5%,我们可以接受没有显着差异的假设吗?



均值差异超出95%的水平,我们可以拒绝原假设。95%并非“水平”,这里是100例​​(比较)中的95例,样本统计的差异是由于样本波动引起的。这表示在alpha = .05处接受null。说95%的水平是不正确的用语。
Subhash C. Davar

Answers:


44

传统上,零假设是一个点值。(通常为,但实际上可以是任何点值。)另一种假设是,真值是除null值以外的任何值。由于连续变量(例如均值差)可以取一个无限接近零值但仍不完全相等的值,从而使零假设为假,因此无法证明传统的点零假设。 0

假设您的零假设为,而观察到的平均差为0.01。假设原假设为真是否合理?你还不知道 了解我们的置信区间应该会有所帮助。比方说,你的95%的置信区间为- 4.99 5.01 。现在,我们是否应该得出结论,真实值为0?我不愿意这么说,因为CI很宽,而且我们可能会合理地怀疑有很多大的非零值与我们的数据一致。假设我们收集了更多的数据,现在观察到的均值差为0.0100.01-4.99 5.0100.01,但95%CI是。观察到的均值差保持不变(如果确实发生,那将是惊人的),但是置信区间现在不包括空值。当然,这只是一个思想实验,但它应该使基本思想清晰。我们永远不能证明真实值是任何特定的点值。我们只能(可能)证明它是某个点值。在统计假设检验中,p值> 0.05(并且95%CI包括零)这一事实意味着我们不确定原假设是否成立0.005 0.015

对于您的具体情况,您无法构建检验,其中替代假设为均值差为,零假设为零以外的任何值。这违反了假设检验的逻辑。这是您的实质性科学假设,这是完全合理的,但在假设检验情况下,它不能成为您的替代假设。 0

所以,你可以做什么?在这种情况下,您将使用等效测试。(您可能想通过单击标记来通读我们在该主题上的一些帖子。)典型的策略是使用两侧测试方法。非常简短地,您选择一个间隔,在该间隔内您将认为真实均值差也可能为0尽您所能,然后执行一个单面测试以确定观察值是否小于该间隔的上限,然后执行另一个单面测试以查看其值是否大于该下限。如果这两个测试均很重要,则您已拒绝了真实值超出您所关注的区间的假设。如果一个(或两个)都不重要,则您无法拒绝真实值在时间间隔之外的假设。

例如,在区间内假设任何事情是如此接近零,你认为这是基本相同的零达到你的目的,所以你使用它作为您的实质性的假设。现在,假设您获得了上述第一个结果。虽然0.01-0.02 0.020.01落在该间隔内,您将无法在任一单边t检验上拒绝原假设,因此您将无法拒绝原假设。另一方面,假设您获得了上述第二个结果。现在,您发现观测值落在指定的间隔内,并且可以显示它既小于上限又大于下限,因此可以拒绝空值。(值得注意的是,可以拒绝假设,即真实值是并且假设,即真实值位于外侧的间隔的- 0.02 0.02 0-0.02 0.02,乍一看似乎很困惑,但与假设检验的逻辑完全一致。)


1
“传统上,原假设是一个点值”- 尽管在某些情况下,我们将原假设写成点,但实际上它是复合的。我很好奇您的第一段中的论点因此对单方面测试有何含义。(由于我们没有-因为据我所知-写“接受 ”即使是片面的测试,我不知道第一款捕获的真正原因,我们不写“接受^ h 0。)H0H0
Silverfish

1
@Silverfish,该段的结尾为:“传统无效假设无法得到证明”。但是,出于相同的原因,我们也不会为单面测试写“ accept ”。当ħ 0δ 0,真δ可以是> 0,但任意接近&因此是非显著。如果您真的想表明它小于0,则可以翻转单面测试的方向。我在这里没有问题。H0H0δ0δ>0<0
gung-恢复莫妮卡

1
我并不是说您写的内容是错误的,我怀疑那是您尝试交流的想法。显然,您在回答的前两段中用点假设解决了双向检验的原因是,问题就是这种情况。但是,如果有人不知道为什么我们一般不“接受 ” 而重新阅读了您的答案,那么对他们来说可能不清楚您的论点实际上超出了零点假设。H0
银鱼

4
论点“我们永远不能证明真实值是任何特定的点值;我们只能(可能)证明它是某个点值”是一个特定的例子-如果CI变成(-0.015 ,-0.005)?在任何程度上我们都“证明”了(我知道您从字面上的数学意义上讲,都不使用“证明”-也许“展示”或“建议”更接近预期的含义),看来我们也有“证明” δ 0,但仍然我们不会‘接受’ ^ h 0δ0δ0H0δ0
银鱼

1
@Silverfish我认为您的最后评论很有意义。从哲学上讲,我觉得的单面测试与零点H 0δ = 0的单面测试有很大的不同,即使在数学上它们几乎是相同的。接受null毫无意义;但在测试δ > 0针对δ < 0H0δ<0H0δ=0δ>0δ<0实际上可以导致接受其中之一(或不确定的结果)。从贝叶斯的角度来看,单面测试更有意义。再加上科学的预测应该有一个方向。我想我开始认为单方面的测试还不够充分。
变形虫说莫妮卡

28

考虑零假设的情况,即一个硬币为2头,即正面的概率为1。现在的数据是一次抛硬币并看到正面的结果。这将导致p值为1.0,该值大于每个合理的alpha。这是否意味着硬币是2头的?可能是,但也可能是一个公平的硬币,由于偶然的缘故,我们看到了正面(将50%的时间用公平的硬币发生)。因此,在这种情况下,较高的p值表示观察到的数据与零值完全一致,但也与其他可能性一致。

就像在法庭上作出“无罪”判决一样,这意味着被告无罪,也可能是因为被告有罪,但证据不足。对于无效假设,我们同样无法拒绝,因为无效可能为真,或者可能是我们没有足够的证据可以拒绝,即使它为假。


3
我喜欢“无罪”的例子。再往前走,根据我们过去不知道如何使用的DNA证据重新审理案件,并推翻了一些信念,这是一个完美的例子,说明如何拥有更多数据才能拥有足够的证据。
Thomas Speidel 2014年

7

缺少证据并不表示没有证据(关于BMJ的Altman,Bland论文的标题)。当我们认为P值很重要时,P值仅会给我们提供缺席的证据。否则,他们什么也不会告诉我们。因此,没有证据。换句话说:我们不知道,更多数据可能会有所帮助。


5

H0

H1个H0

H0

如果我们有两个样本,我们期望它们分布均匀,那么我们的原假设是样本相同。如果我们有两个样本(我们希望它们是(野生)不同),那么我们的原假设是它们是不同的。


如果我们没有期望,那该怎么办呢?可能就是我们不知道。另外,如果我们要拒绝两个样本不同的假设,决策规则将如何工作?
ryu576 2014年

在您没有期望的情况下,您希望将两种类型的错误都保持很小,但这并非总是可能的。您需要一个额外的变量(例如增加样本量)来执行此操作。
SomeEE 2014年

2
因为我们可以拒绝null但不能证明它为真,所以null通常与我们想证明或假定为真的相反。如果我们认为存在差异,那么null应该没有差异,以便您可以证明这一点。
格雷格·雪

@Greg如果您知道哪个是真实的,那可能是通常的情况,那么这是一个好方法。
2014年

1
“您所期望的”和“它们与众不同”根本就不是统计假设,因为它们不是定量的。这成为问题的症结所在:零假设和替代假设之间角色的不对称性来自于确定零条件下检验统计量抽样分布的能力,而相比之下,需要根据效应大小来对分布进行参数化替代假设。我们也不是“最小化类型I错误”:永远不会发生(最小值始终为0)。测试在I型和II型错误率之间寻求平衡
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.