引导程序-有人可以提供简单的说明来帮助我入门吗?


9

尽管尝试过几次有关引导的尝试,但我似乎总是碰壁。我想知道是否有人可以给出一个合理的非技术性引导定义?

我知道这是不是在这个论坛可以提供足够的细节,使我能够完全理解,但与主要目标和引导的机制正确的方向轻轻一推将不胜感激!谢谢。

Answers:


8

引导程序上的Wikipedia条目实际上非常好:

http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29

应用引导程序的最常见原因是从中获取样本的基础分布的形式未知。传统上统计学家会假设正态分布(由于与中心极限定理有关的充分理由),但是仅当基本人口分布为正常。

通过反复对样本本身进行重新采样,自举可以实现独立于分布的估计。传统上,原始样本的每个“重采样”都会随机选择与原始样本相同数量的观察值。但是,这些都是选择替换的。如果样本具有N个观测值,则每个引导程序重采样都将具有N个观测值,其中许多原始样本被重复,许多被排除在外。

然后可以从每个自举样本中估算感兴趣的参数(例如,优势比等)。重复执行1000次引导程序,可以通过选择2.5%,50%和97.5%的百分数来估计统计数据的“中位数”和95%置信区间(例如,优势比)。


8

《美国科学家》最近在Cosma Shalizi 的引导中撰写了一篇不错的文章,该文章相当容易阅读,并为您提供了掌握这一概念的基本知识。


7

广义上讲:名称的直觉以及名称的起源(“自举”)是从以下观察得出的:使用样本的属性来推断人口(统计的“逆”问题)推断),我们希望会出错。要找出该错误的性质,可将样本本身视为整体,并研究从中提取样本时推理程序的工作方式 这是一个“前进”的问题:你知道所有关于你的样品- QUA-人口,不必猜测任何事情。您的研究将建议(a)您的推理程序可能会偏倚的程度,以及(b)您的程序统计错误的大小和性质。因此,请使用此信息来调整您的原始估算。在许多(但绝对不是全部)情况下,调整后的偏差会渐近降低。

此示意图描述提供的一个见解是,引导程序不需要仿真或重复的子采样:当总体已知时,那些恰好是综合的,易计算的方法来研究任何类型的统计程序。存在大量可以数学计算的引导估计。

这个答案在很大程度上要归功于彼得·霍尔(Peter Hall)的著作《 The Bootstrap and Edgeworth Expansion》(Springer,1992年),特别是他对Bootstrapping的“主要原理”的描述。


我喜欢这种“原始”方法(编写其他条目)。不过,我始终很难解释为什么引导程序会在实践中起作用……
chl

4

关于引导的Wiki 提供了以下描述:

引导程序使人们可以收集通常从一个样本中计算出的单个统计信息的许多替代版本。例如,假设我们对全世界人的高度感兴趣。由于我们无法衡量所有人口,因此仅对其中的一小部分进行抽样。从该样本中只能获得一个统计值,即一个平均值或一个标准偏差等,因此我们看不到该统计量有多少变化。使用引导程序时,我们从N个采样数据中随机抽取n个高度的新样本,每个人最多可以选择t次。通过多次执行此操作,我们创建了可能已经看到的大量数据集,并为每个数据集计算统计信息。这样我们就可以估算出统计量的分布。

如果您可以澄清以上说明中您不理解的部分,我将提供更多详细信息。


4

我喜欢这样认为:如果您从总体中获得随机样本数据集,那么大概该样本将具有与源总体的特征大致匹配的特征。因此,如果您有兴趣获取分布的特定特征(例如偏度)的置信区间,则可以将样本视为伪种群,从中可以获取许多随机伪样本集,计算出每个感兴趣特征的值。原始样本与总体大致匹配的假设也意味着您可以通过从“带有替换”的伪种群中采样来获得伪样本(例如,对一个值进行采样,记录下来,然后放回去;因此每个值有可能被多次观察。)


3

Bootstrap本质上是重复实验的模拟;假设您有一个装有球的盒子,想要获得一个球的平均尺寸-因此您要画一些球,测量并取平均值。现在,您要重复此操作以获取分布,例如获得标准偏差-但您发现有人偷了盒子。
现在可以做的就是使用您所拥有的-这一系列的测量值。想法是将球放入新盒子中,并通过替换相同数量的球来模拟原始实验-两者都具有相同的样本大小和一定的可变性。现在,可以将其多次复制以获得一系列均值,这些均值可以最终用于近似均值分布。


3

这是自举的本质:获取数据的不同样本,获取每个样本的统计信息(例如,均值,中位数,相关性,回归系数等),并使用各个样本的统计信息中的差异来表明统计的标准误差和置信区间。- 自举和R中的引导软件包

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.