我们可以接受非劣效性测试中的空值吗?


11

在常规的均值t检验中,使用常规的假设检验方法,我们要么拒绝null要么不拒绝null,但是我们从不接受null。原因之一是,如果我们有更多的证据,那么相同的效应大小将变得很重要。

但是在非自卑感测验中会发生什么呢?

那是:

H0μ1个-μ0X

H1个μ1个-μ0>X

其中是我们认为基本相同的一些量。因此,如果我们拒绝null,则说比至少。如果没有足够的证据,我们将不拒绝零值。 Xμ1个μ0X

如果效果大小为或更大,则类似于常规t检验。但是,如果样本中的效应大小小于,该怎么办?然后,如果我们增加样本量并保持相同的效果,它将保持无关紧要。因此,在这种情况下,我们可以接受null吗?XX


1
你的假设混在一起了吗?通常,对于NI测试,零假设是差异大于x,而替代方案是差异小于或等于x。我想这取决于您的差异量表的顺序。
比约恩

嗨,@Björn,这取决于更高或更差。
彼得·弗洛姆

1
与询问单面测试中是否可以接受空值是否相同?stats.stackexchange.com/a/85914的注释中对此进行了一些讨论。
变形虫

2
@amoeba我认为Peter提出了一个引人入胜的论点(+1),也许更像是一个悖论。关于为什么我们有时不“接受H0”的一种传统解释是“如果我们有更多的证据,那么相同的效应大小将变得很重要”。但是按照彼得的逻辑,我们要么得出结论,在某些情况下我们应该 “接受H0”,或者如果我们不接受,则“原因”实际上是错误的,而不是为什么我们要这样做。我相信您是正确的-他的论点也适用于单面t检验,因为随着n的增加,负面影响的规模仍然微不足道
Silverfish'3

1
是的,我同意:链接的答案无法回答您的问题。我只提供了链接,因为那里的评论中有相关的讨论。
变形虫

Answers:


7

您的逻辑完全适用于读者可能更熟悉的良好的旧式单面测试(即)。为了具体,假设我们正在测试的空^ h 0μ 0对替代方案,μ为正。然后,如果trueμ为负,则增加样本数量不会产生明显的结果,也就是说,用您的话来说,“如果我们获得更多证据,则相同的影响大小将变得很重要”。X=0H0μ0μμ

如果我们测试,我们可以有三种可能的结果:H0μ0

  1. 首先,的置信区间可以是完全大于零; 然后我们拒绝null并接受替代方案(μ为正)。1个-α100μ

  2. 其次,置信区间可以完全低于零。在这种情况下,我们不会拒绝null。但是,在这种情况下,我认为可以说“接受空值”是可以的,因为我们可以将视为另一个空值而拒绝该空值。H1个

  3. 第三,置信区间可以包含零。这样我们就不能拒绝,也不能拒绝H 1,因此没有什么可以接受的。H0H1个

因此,我想说,在单面情况下,可以接受空值,是的。但是我们不能仅仅因为未能拒绝就接受它。有三种可能性,而不是两种。

(完全相同的测试也适用于等效测试,也称为“两面测试”(TOST),非劣等测试。一个人可以拒绝无效,接受无效或得出不确定的结果。)

相反,当是零点,例如H 0μ = 0时,我们永远不能接受它,因为H 1μ 0不会构成有效的零假设。H0H0μ=0H1个μ0

(除非只能有离散值,例如必须是整数,那么我们似乎可以接受^ h 0μ = 0,因为^ h 1μ ∈ žμ 0,现在确实构成了有效的零假设这是一点。不过是特殊情况。)μH0μ=0H1:μZ,μ0


前一段时间,在@gung的回答下的评论中讨论了这个问题:统计学家为什么说不重要的结果意味着“您不能拒绝零”而不是接受零假设?

另请参见有趣的(且投票不足)线程。在Neyman-Pearson方法中未能拒绝null是否意味着应该“接受”它?,@ Scortchi解释说,在Neyman-Pearson框架中,有些作者毫无疑问地谈论“接受null”。这也是@Alexis在其答案的最后一段中的含义。


如果的置信区间是完全零以上则拒绝零即μ 0:这是与最坏情况尺寸的测试α(1α)μ0。如果1-α的置信区间是完全低于零则拒绝零即μ>0:这是与最坏情况尺寸的测试αα2(1α)μ>0。通过结合两个测试,您可以保持最坏情况下的大小αα2因为两个空值是互斥的。因此,可以用接受一个备选方案或另一种备选方案,或都不拒绝任何一项来描述这三个结果。α2
Scortchi-恢复莫妮卡

可以将两尾测试看作是由两个单面测试组成的测试。但替代方案并非互斥,最坏情况下的大小为(当μ = 0时)。αμ=0
Scortchi-恢复莫妮卡

谢谢@Scortchi。我不太确定您是否同意我的回答。
变形虫

由于不被接受QUA空在一个测试中,但QUA在另一个,感觉“接受空的”替代被不必要地混淆这里; 但是,您的程序应能满足您的需求。在您的答案中可能需要更加强调的是,将非自卑与自卑(反之亦然),优越与非自卑(或无零),自卑与非自卑(或无零)的测试结合起来之间的区别。μ0
Scortchi-恢复莫妮卡

@Scortchi最后一句的语法非常复杂:可以(或不能)完全组合什么,以及到底有什么区别?我不确定我是否正确理解了您,对不起。
变形虫

6

我们绝不会“接受零假设”(也没有考虑效力和最小相关影响大小)。对于单个假设检验,我们提出自然状态,然后回答以下问题的一些变体:“假设H 0(和分布假设)为真,那么我们不太可能观察到检验统计量的数据。?然后,我们将根据首选的I类错误率拒绝或不拒绝H 0,并得出一个始终与H A有关的结论…即我们找到了得出H A结论的证据,或者我们没有找到得出H结论的证据。。我们不接受HH0H0H0HAHAHA因为我们没有为此寻找证据。缺少证据(例如,存在差异)与缺少证据(例如,存在差异)不是一回事。H0

对于单面测试和两面测试都是如此:我们寻找支持证据并找到它,或者找不到它。HA

如果我们仅提出一个(不认真关注最小相关效应量和统计功效),那么我们实际上是对确认偏差做出了先验承诺,因为我们没有寻找H 0的证据,而只是寻找证据对于^ h 。当然,我们可以(而且,我敢说)应该对立场提出零假设(将差异(H + 0)与等价(H - 0)相结合的相关性测试就是这样做的。H0H0HAH0+H0

在我看来,没有理由不能将对自卑的单方面测试与对非自卑的单方面测试相结合,以同时在两个方向上提供证据(或缺乏证据)。

当然,如果一个人正在考虑力量效果的大小,而没有拒绝,但知道(a)一些最小的相关效果大小δ,并且(b)他们的数据足够强大,可以检测到a给定测试,则可以将其解释为H 0的证据。H0δH0


1
彼得的问题包含一个特别有趣的观点,即这个答案似乎在绕开:关于标准“拒绝H0”的传统解释之一是,例如,在t检验中,如果我们得到更多的证据,则具有相同的效果大小将变得重要。但是,如果这是我们“拒绝”的“真正”原因,那么他的论点(至少在我看来)至少在我看来可以接受“ H0”,尽管我不确定我我认为它是一种统计statistical语,而不是随意地,有意识地,故意地完成。
银鱼

1
这个回答以一种清晰,简洁,简洁的方式重申了“接受H0”的常规立场,但似乎并没有直接解决彼得问题的核心论点(或者说是悖论)。对于常规术语,您如何看待“我们不能接受H0,因为如果我们获得更多证据,则相同的效应大小将变得很重要”-彼得的表述或扩展是否存在缺陷,或者是逻辑上的最初的论点无效?
银鱼

1
@Silverfish跟随我在“相关性测试”答案中的链接,进一步放大了我对“我们不能接受H0的原因,因为如果我们有更多的证据,同样的影响大小将变得很重要”的问题的解决方案
Alexis

1
@Alexis我必须同意Silverfish。非常感谢您的回答,但由于Silverfish阐述的原因,它不能解决我的中心问题。如果我们的N = 1,000,000,那么在标准设置中几乎所有差异都是很明显的。但是在非自卑的情况下,事实并非如此。即使在TOST方面,事实并非如此。如果差异小于我们认为重要的金额,则没有N表示信号。
彼得·弗洛姆

1
抱歉-我的第一条评论仅是作为第二条的序幕(或更准确地说,第二条是第一条的溢出!),无意于提出自己的立场。该链接很有帮助,谢谢。您的中心点(在回答和重述中都很好地说明了这一点)清楚地说明了您为何不同意Peter的结论。但是我很好奇你觉得他的逻辑缺陷-也许是它的前提。这是我觉得没有直接解决的问题。
Silverfish'3
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.