为什么在引导假设检验中应在零假设下对数据进行重新采样?


11

引导程序方法在假设检验中的直接应用是通过对自举样本进行重复计算来估计测试统计信息的置信区间 (将从引导程序采样的统计信息称为)。如果假设参数(通常等于0)位于的置信区间之外,则我们拒绝。θ^θ^θ^H0θ0θ^

我读过,这种方法缺乏力量。在Hall P.和Wilson SR的文章“引导假设检验的两个准则”(1992年)中,它被写为第一条准则,即应该对重新采样,而不是在。这是我不了解的部分。θ^-θ^θ^-θ0

这不就是措施的估计只是偏置?对于无偏估计量,此表达式的置信区间应始终小于,但是我看不到与测试什么关系?我在哪里都看不到我们放置有关。θ^-θ^θ^θ^-θ0θ^=θ0θ0


对于那些无法访问本文的人,本文引用紧随其后的相关段落:

要理解为什么这很重要,请注意如果在中,测试将涉及拒绝 是“太大”。如果与真实值很远 (即,如果严重错误),则差异 与的非参数引导分布相比,它看起来永远不会太大。比较有意义的是的分布 。事实上,如果真值 ISH0|θ^-θ0|θ0θH0|θ^-θ0||θ^-θ0||θ^-θ^|θθ1个那么自举测试的功效将增加为1,原因是增加,前提是测试基于重采样 | ^ θ * - θ | 上,但是电源至多降低至显着性水平(如| θ 1 - θ 0 |增加)如果测试是基于重采样 | θ - θ 0 ||θ1个-θ0||θ^-θ^||θ1个-θ0||θ^-θ0|

Answers:


7

这就是自举类推原理。(未知的)基础真实分布手边生产的样品X 1... X Ñ与CDF ˚F Ñ,这反过来又产生的统计量θ = Ť ˚F Ñ为一些功能Ť 。您使用引导的想法是要基于的已知分布的抽样分布陈述˚FFX1个XñFñθ^=ŤFñŤF,您尝试使用相同的采样协议(这仅适用于iid数据;依赖数据始终会限制人们能够准确再现采样过程的方式),并应用相同的功能性。我在另一篇文章中用(我认为是)整洁的图表进行了演示。所以(采样+系统)偏差的自举模拟θ - θ 0,你的主要兴趣的数量,是自举复制偏差θ *从什么被称为是真正的分布˚F,采样您申请的流程以及功能Ťθ^-θ0θ^F,即你的集中趋势的措施是牛逼˚F。如果从原来的数据,您所使用的标准非参数自举与更换˚F = ˚F Ñ,所以你的集中趋势的测度必须 Ť ˚F Ñ≡ θ基于原始数据。ŤŤFF=FñŤFñθ^

除了翻译之外,引导程序测试还存在一些难以解决的问题。空值下的测试统计量的分布可能与替代项下的测试统计量的分布完全不同(例如,在对参数空间边界进行的测试中,由于引导程序失败)。你本科班学习一样的简单测试一旦你移动到的概念复杂性的一个新的水平,渐近-测试正在移不变,但思考,“哎呀,我只是转移一切”失败χ 2次测试。想想这个:你测试μ = 0,和你的观察ˉ X =Ťχ2μ=0。然后,当构造一个 χ 2检验ˉ X - μ 2 /小号2 / Ñ ≡ ˉ X 2 /小号2 / Ñ 与所述自举类似物 ˉ X 2 * /小号2 * / Ñ ,然后该测试具有内置的非中心性 ñ ˉ X 2 / 小号2X¯=0.78χ2(x¯μ)2/(s2/n)x¯2/(s2/n)x¯2/(s2/n)nx¯2/s2从一开始就没有像我们期望的那样成为中心测试。为了使引导测试成为中心,您实际上必须减去原始估计。

测试是在多元上下文是不可避免的,范围从皮尔逊χ 2应急表来博伦-斯坦引导结构方程模型检验统计量。在这些情况下,很难很好地定义移动分布的概念……尽管在对多元协方差矩阵进行测试的情况下,通过适当的旋转即可做到。χ2χ2


谢谢。有网友认为我还是不明白:我们在哪里把有关信息的引导?其中^ h 0是假的,θ 0可能是相当开来的真实分布。θ0H0θ0
亚当·里奇科夫斯基

你空下计算p值,所以你应该考虑的情况下,当符合空。考虑替代方案当然是值得在替代方案下完成的工作,但是...哇...那将是对引导程序测试方法的高级使用。θ0
StasK

3

好,知道了 谢谢StasK,这么好的回答。我会让其他人接受它,但是在我的特殊情况下,我缺少一个非常简单的事实:

根据Hall&Wilson准则进行的简单一抽样均值测试的自举程序是这样的(在R启发式伪代码中):

1function(dataθθ 00 ^ θ *θ ^ θ *θθ0 ) {
2 θ^ t.test(data, mu = θ0 )$statistic
3 count 0
4for(i in 1:1000){
5 bdata sample(data)
6 θ^ t.test(bdata, mu = θ^ )$statistic
7 if ( θ^θ^ ) count++
8 }
9 count/1000
10 }

我错过了部分是,是“用过的”在线(其中,我们设定的基准θ)。θ02θ^

有趣的是,在这一行中26我们同样可以轻松地使用p.value代替statistic。在这种情况下,我们也应该改变一致。7


θ^θθ0θ^-θ^θ^-θ0

1
也许有所帮助:迈克尔·切尔尼克(Michael Chernick)给出了简洁的直觉,以回答我在这里的相关问题。stats.stackexchange.com/questions/289236/...
半通
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.