Answers:
引导程序上的Wikipedia条目实际上非常好:
http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29
应用引导程序的最常见原因是从中获取样本的基础分布的形式未知。传统上统计学家会假设正态分布(由于与中心极限定理有关的充分理由),但是仅当基本人口分布为正常。
通过反复对样本本身进行重新采样,自举可以实现独立于分布的估计。传统上,原始样本的每个“重采样”都会随机选择与原始样本相同数量的观察值。但是,这些都是选择替换的。如果样本具有N个观测值,则每个引导程序重采样都将具有N个观测值,其中许多原始样本被重复,许多被排除在外。
然后可以从每个自举样本中估算感兴趣的参数(例如,优势比等)。重复执行1000次引导程序,可以通过选择2.5%,50%和97.5%的百分数来估计统计数据的“中位数”和95%置信区间(例如,优势比)。
从广义上讲:名称的直觉以及名称的起源(“自举”)是从以下观察得出的:使用样本的属性来推断人口(统计的“逆”问题)推断),我们希望会出错。要找出该错误的性质,可将样本本身视为整体,并研究从中提取样本时推理程序的工作方式。 这是一个“前进”的问题:你知道所有关于你的样品- QUA-人口,不必猜测任何事情。您的研究将建议(a)您的推理程序可能会偏倚的程度,以及(b)您的程序统计错误的大小和性质。因此,请使用此信息来调整您的原始估算。在许多(但绝对不是全部)情况下,调整后的偏差会渐近降低。
此示意图描述提供的一个见解是,引导程序不需要仿真或重复的子采样:当总体已知时,那些恰好是综合的,易计算的方法来研究任何类型的统计程序。存在大量可以数学计算的引导估计。
这个答案在很大程度上要归功于彼得·霍尔(Peter Hall)的著作《 The Bootstrap and Edgeworth Expansion》(Springer,1992年),特别是他对Bootstrapping的“主要原理”的描述。
关于引导的Wiki 提供了以下描述:
引导程序使人们可以收集通常从一个样本中计算出的单个统计信息的许多替代版本。例如,假设我们对全世界人的高度感兴趣。由于我们无法衡量所有人口,因此仅对其中的一小部分进行抽样。从该样本中只能获得一个统计值,即一个平均值或一个标准偏差等,因此我们看不到该统计量有多少变化。使用引导程序时,我们从N个采样数据中随机抽取n个高度的新样本,每个人最多可以选择t次。通过多次执行此操作,我们创建了可能已经看到的大量数据集,并为每个数据集计算统计信息。这样我们就可以估算出统计量的分布。
如果您可以澄清以上说明中您不理解的部分,我将提供更多详细信息。
Bootstrap本质上是重复实验的模拟;假设您有一个装有球的盒子,想要获得一个球的平均尺寸-因此您要画一些球,测量并取平均值。现在,您要重复此操作以获取分布,例如获得标准偏差-但您发现有人偷了盒子。
现在可以做的就是使用您所拥有的-这一系列的测量值。想法是将球放入新盒子中,并通过替换相同数量的球来模拟原始实验-两者都具有相同的样本大小和一定的可变性。现在,可以将其多次复制以获得一系列均值,这些均值可以最终用于近似均值分布。
这是自举的本质:获取数据的不同样本,获取每个样本的统计信息(例如,均值,中位数,相关性,回归系数等),并使用各个样本的统计信息中的差异来表明统计的标准误差和置信区间。- 自举和R中的引导软件包