如果感兴趣的数量(通常是分布的函数)相当平稳,并且您的数据是独立的,那么您通常处于相当安全的范围内。当然,在其他情况下,引导程序也将起作用。
引导程序“失败”意味着什么
从广义上讲,引导程序的目的是为关注的统计数据构造一个近似的采样分布。这与参数的实际估计无关。因此,如果感兴趣的统计信息(在某些缩放和集中下)是和,则我们希望我们的引导分布收敛到的分布。如果我们没有这个,那么我们就不能相信所做的推断。X^nX^n→X∞X∞
即使在iid框架中,引导程序何时也可能失败的典型示例是当尝试估算极端顺序统计信息的采样分布时。下面是一个简短的讨论。
来自分布的随机样本的最大阶统计量U[0,θ]
令是上的iid一致随机变量序列。令。的分布为
(请注意,通过一个非常简单的参数,实际上还显示了的概率,甚至几乎可以肯定的是,如果所有随机变量都在同一空间上定义。)X1,X2,…[0,θ]X(n)=max1≤k≤nXkX(n)
P(X(n)≤x)=(x/θ)n.
X(n)→θ
基本计算得出
换句话说,在分布中收敛为均值为的指数随机变量。
P(n(θ−X(n))≤x)=1−(1−xθn)n→1−e−x/θ,
n(θ−X(n))θ
现在,通过对进行重采样并替换以获得并使用分布,我们对的分布形成一个(自然的)引导估计。的有条件的。n(θ−X(n))X1,…,XnX⋆1,…,X⋆nn(X(n)−X⋆(n))X1,…,Xn
但是,观察到的概率为,因此尽管存在渐近分布,但自举分布的点质量仍为零实际极限分布是连续的事实。X⋆(n)=X(n)1−(1−1/n)n→1−e−1
更明确地说,尽管真正的极限分布与均值呈指数关系,但极限自举分布将点质量放置在大小为零处,而与的实际值无关。通过使足够大,我们可以使任意限制间隔的真实极限分布的概率任意较小,但是引导程序(仍然!)将报告该间隔至少有0.632的概率!由此可见,在这种情况下,引导程序可能会表现得很差。θ1−e−1≈0.632 θθ[0,ε)
总之,在这种情况下,引导程序会失败(可能)。在参数空间边缘处理参数时,事情往往会出错。
来自正常随机变量样本的示例
在异常简单的情况下,还有其他类似的引导程序失败的示例。
考虑来自的样本其中的参数空间限制为。在这种情况下,MLE是。同样,我们使用引导估计。同样,可以证明(以观察到的样本为条件)不会收敛到与。X1,X2,…N(μ,1)μ[0,∞)X^n=max(X¯,0)X^⋆n=max(X¯⋆,0)n−−√(X^⋆n−X^n)n−−√(X^n−μ)
可交换数组
最具戏剧性的例子之一可能是可交换数组。假设为随机变量数组,这样,对于每一对置换矩阵和,数组和具有相同的联合分布。也就是说,对行和列进行置换可以使分布不变。(您可以考虑一个双向随机效应模型,每个单元一个观察值作为示例,尽管该模型更为通用。)Y=(Yij)PQYPYQY
假设我们希望估计均值的置信区间(由于上述可交换性假设,所有均值的均值单元格必须相同)。μ=E(Yij)=E(Y11)
McCullagh(2000)考虑了引导这种阵列的两种不同的自然(即幼稚)方式。他们都没有得到样本均值正确的渐近方差。他还考虑了单向可交换数组和线性回归的一些示例。
参考文献
不幸的是,该主题是不平凡的,因此这些都不是特别容易阅读的内容。
P. Bickel和D. Freedman,关于自举的一些渐近理论。安 统计 ,卷 9号 6(1981),1196–1217年。
DWK Andrews,当参数位于参数空间边界上时,引导程序不一致,Econometrica,vol。68号 2(2000),399–405。
P. McCullagh,“ 重采样和可交换数组”,Bernoulli,第一卷。6号 2(2000),285-301。
EL Lehmann和JP Romano,测试统计假设,第3版。编,Springer(2005)。[第15章:一般的大样本方法]