Answers:
可以想象有几种方法可以应用引导程序。两种最基本的方法是所谓的“非参数”引导程序和“参数”引导程序。第二个假设您正在使用的模型是(基本上)正确的。
让我们专注于第一个。我们假设您具有根据分布函数分布的随机样本。(否则假设需要修改方法。)令为经验累积分布功能。引导的动机主要来自两个事实。 ˚F ˚F Ñ(X )= ñ - 1 Σ Ñ 我= 1 1(X 我 ≤ X )
Dvoretzky–Kiefer–Wolfowitz不等式
这表明,经验分布函数均匀地收敛于真实分布函数,概率呈指数级增长。确实,这种不平等加上Borel–Cantelli引理立即表明几乎肯定。
的形式没有附加条件可以保证这种收敛。
试探性地,那么,如果我们对光滑的分布函数的某个函数感兴趣,那么我们期望接近。ţ (˚F Ñ)ţ (˚F )
(逐点)无偏性
通过期望的简单线性和,对于每个,X∈ř
假设我们对均值感兴趣。然后,经验测度的无偏性扩展到经验测度的线性函数的无偏性。因此, Ë ˚F Ť (˚F Ñ)= È ˚F ˉ X Ñ = μ = Ť (˚F )
因此,平均是正确的,并且由于迅速接近,因此(启发式),迅速接近。^ ˚F Ñ ˚F Ť (˚F Ñ)ţ (˚F )
要构建置信区间(本质上是引导程序的全部内容),我们可以使用中心极限定理,经验分位数的一致性和delta方法作为从简单线性函数转换为感兴趣的更复杂统计量的工具。
好的参考是
这是考虑问题的另一种方法:
从了解真实分布的理论开始,我们可以通过模拟真实分布来发现样本统计信息的属性。Gosset就是这样,通过从已知法线采样并计算统计量来开发t分布和t检验。这实际上是参数引导程序的一种形式。请注意,我们正在模拟以发现统计信息的行为(有时与参数有关)。
现在,如果我们不知道人口分布,我们将对经验分布中的分布进行估计,然后从中进行抽样。通过从经验分布(已知)采样,我们可以看到引导程序样本和经验分布(引导程序样本的总体)之间的关系。现在我们推断,从引导样本到经验分布的关系与从样本到未知总体的关系相同。当然,这种关系如何转换将取决于样本在总体中的代表性。
请记住,我们不是使用引导样本的平均值来估计总体平均值,而是使用样本均值(或任何感兴趣的统计量)。但是我们使用引导程序样本来估计采样过程的属性(扩展,偏差)。而且,使用来自已知总体(我们希望代表感兴趣的总体)的采样来学习采样的效果是有意义的,而且循环性要差得多。
自举的主要技巧(和刺痛)在于它是一种渐近理论:如果您有一个无限的样本作为开始,那么经验分布将非常接近实际分布,因此差异可以忽略不计。
不幸的是,引导程序通常用于小样本量。普遍的感觉是,引导程序已经显示出可以在某些非渐近的情况下工作,但是请务必小心。如果样本大小太小,那么实际上您是在有条件的情况下将样本作为真实分布的“良好表示”,这很容易导致圈子中的推理:-)