向外行人解释引导程序为何起作用


326

我最近使用引导程序来估计项目的置信区间。人谁不知道很多有关统计最近问我解释为什么引导工作,即,那为什么在重新取样相同的样本,并在提供了良好的效果。我意识到,尽管我花了很多时间来了解如何使用它,但我并不真正理解引导程序为何起作用。

具体来说:如果我们从样本中进行重采样,那我们是如何在了解有关总体而不是仅关于样本的信息?似乎有一个飞跃,这有点违反直觉。

在这里,我已经找到了一些答案,而我对此有一半的了解。特别是这个。我是统计学的“消费者”,而不是统计学家,并且我与对统计学了解不多的人一起工作。因此,有人可以在最少参考定理等情况的情况下解释引导程序的基本原理吗?也就是说,如果您不得不向邻居解释,您会说什么?


13
(+1)您可能会简短提及您所看的问题,但并不能完全满足您的要求。这里的引导程序有很多问题。:)
红衣主教

@cardinal谢谢,我更新了原始帖子。希望它更加清楚。:)
Alan H.

5
需要注意的一件事-引导对于分层结构的数据不容易工作-例如多级模型和多阶段采样设计。知道应该使用“哪个引导程序”非常令人困惑。
概率

2
基本上,引导程序起作用,因为它是非参数的最大可能性。因此,如果出现问题的可能性最大,则可以预期引导程序会出现问题。
kjetil b halvorsen

3
杰克·范德普拉斯(Jake VanderPlas)在PyCon 16上就引导程序和其他一些相关技术进行了精彩演讲。见幻灯片开始幻灯片71和录像
THM

Answers:


198

我通常给出的中等长度版本如下所示:

您想问一个人口问题,但不能。因此,您取一个样本,然后提出问题。现在,您对样本答案是否接近总体答案的信心应该明显取决于总体结构。您可能了解到的一种方法是一次又一次地从总体中抽取样本,向他们提问,并查看样本答案的变化趋势。由于这是不可能的,您可以对总体形状进行一些假设,也可以使用样本中实际上需要了解的信息。

想象一下,您决定做一些假设,例如,这是正常,伯努利或其他方便的小说。按照先前的策略,通过重复生成与您拥有的样本大小相同的样本,您可以再次了解询问样本时问题的答案可能会有所不同,具体取决于您碰巧获得的特定样本题。如果您选择了计算方便的假设,那将很简单。(实际上特别方便的假设加上非平凡的数学运算可能会让您完全绕过采样部分,但是在此我们将故意忽略它。)

只要您乐于进行假设,这似乎是个好主意。想象你不是。另一种方法是获取您拥有的样本,然后从中取样。您可以执行此操作,因为您拥有的样本也是一个总体,只是一个很小的离散样本。它看起来像数据的直方图。“带替换”采样只是一种方便的方式,可以像对待总体一样对待样本,并以反映样本形状的方式从样本中进行采样。

这是一个合理的做法,因为不仅您拥有的样本最好,而且实际上是您掌握的有关人口实际情况的唯一信息,而且因为大多数样本(如果是随机选择的)看起来都非常像样本。他们来自的人口。因此,很可能您也这样做。

为了直观起见,重要的是考虑如何通过汇总以各种方式和各种假设生成的采样信息来学习可变性。完全忽略闭合形式数学解的可能性对于弄清这一点很重要。


5
好答案。我特别喜欢倒数第二段。
彼得·富勒姆

19
(+1)个好答案。我认为,也许有一种方法可以进一步提出一个非常重要的观点。在正常执行引导程序的方式中,有两种情况正在发生。首先,我们假装我们获得的样本是我们人口的代理。只要我们的样本量足够大,这在名义上是合理的事情。但是,我们通常很难从该假装分布中计算出实际的利息数量。因此,我们必须对其进行估算,这就是为什么我们绘制大量自举样本的原因。如果我们可以... / ...
红衣主教

11
... / ...直接为我们的假装分配计算感兴趣的数量,我们希望这样做。并且,那将是真正的引导程序。但是,通常我们不能,因此我们不得不重新采样。
红衣主教

8
@ naught101:“合理大”可以通过DKW不等式很好地量化(如果您愿意,您可以在OP的问题链接中查看我的回答),关于手数,取决于感兴趣的样本统计量,但是,如果我们有引导程序样本,则使用简单的蒙特卡洛,我们知道标准误差的阶数约为。BO(B1/2)
红衣主教2012年

4
@cardinal:好评论。许多人认为引导和重采样是同一件事,而实际上后者是用于前者的工具。一个类似的误解是,许多统计用户倾向于混淆MCMC和贝叶斯分析。
MånsT

122

+1 @ConjugatePrior,我只想指出他的答案中隐含的一点。这个问题问道:“如果我们要从样本中重采样,那我们是如何在学习有关人口的知识,而不是仅从样本中学习?” 重新抽样不能提供人口分布的估计值-我们将样本本身作为人口模型。而是,进行重采样以提供有关样本统计量的采样分布的估计值。


10
(+1)这与我在对ConjugatePrior的回答的评论中试图表达的观点很接近,尽管您已经更加简洁明了地陈述了它。在某些特殊情况下,我们可以准确地根据从样本获得的经验分布来计算检验统计量的抽样分布。但是,通常我们不能这样做,因此我们被迫进行仿真。:)
红衣主教2012年

7
我明白了,因此,如果我理解您的话,那么该技术将假定样本是总体的适当模型,因此,以足够大的规模对该样本进行重采样将揭示有关总体的某些信息,但仅限于原始样品是一个很好的样品。现在,我这样说,似乎几乎是显而易见的……
艾伦·H.

4
@AlanH。,我只想将“ ...将揭示有关人口的某些信息”更改为“ ...将揭示有关抽样分布的某些信息”(有关统计数据,例如均值)。但是,是的,你有它存在

你们都是正确的,当然。就个人而言,纯粹出于教学原因,我将这一点保留为“较长版本”,因为在我的特定受众中,如果过早应用,这一点往往会使他们年轻而仍然不稳定的直觉失去一些平衡。
2012年

3
@ErosRam,引导程序是确定某物的采样分布。您可以针对样本统计量(例如,第56个百分位数)或检验统计量(t)等来执行此操作。在我的二项式ex中,抽样分布显然为0头-25%;1个头-50%; 2个头-25%; 没有重采样很明显。红衣主教在某处有评论对此进行了解释(网站上的许多最佳答案都是红衣主教的评论),但很难找到b / c这是一条评论。
gung

43

这可能是针对那些了解一些统计和数学(至少是微积分)的人们的更具技术性的解释。这是我前一段时间教授的有关调查引导程序的幻灯片:

自举原理

当然,需要一些解释。是从现有数据中获取统计信息的过程(或更准确地说,是从分布函数到实数的函数;例如,平均值为,其中,对于样本分布函数,被理解为样本点处的点质量。在总体中,用表示,应用给出感兴趣的参数。现在,我们获取了一个样本(顶部的第一个箭头),并具有经验分布函数-我们对其应用以获得估计TE[X]=xdFFn()dFF()TθFn()Tθ^n。我们想知道距有多远?随机量在附近可能有什么分布?这是该图左下方的问号,这是引导程序试图回答的问题。重申龚先生的观点,这不是关于人口的问题,而是关于特定统计数据及其分布的问题。θθ^nθ

如果我们可以重复采样程序,则可以得到该分布并了解更多信息。好吧,这通常超出了我们的能力范围。但是,如果

  1. Fn在适当的意义上足够接近,并且F
  2. 映射是足够光滑,即,如果我们从小的偏差,将结果映射到接近号码,TF()θ

我们可以希望引导程序将起作用。也就是说,我们假装我们的分布是而不是,并且我们可以招待所有可能的样本-并且将有这样的样本,这仅对于是可行的。让我再重复一遍:引导程序可围绕“ true”参数创建的采样分布,并且我们希望在上述两个条件下,该采样分布能为采样分布提供更多信息周围的:Fn()F()nnn5θ^nθ^nθ^nθ

θ^n to θ^n is like θ^n to θ

现在,我们不仅可以沿着箭头方向前进,而且可以沿着这些箭头方向丢失一些信息/准确性,我们可以回过头说说周围。θ^nθ^n

上述条件在Hall(1991)的书中最详尽地阐述了。我所说的对微积分的理解是凝视这张幻灯片的先决条件,这是有关光滑度的第二个假设:在更正式的语言中,功能性必须具有弱导数。当然,第一个条件是一个渐近陈述:样本越大,应该越接近;从到应该与从到距离数量级相同。这些条件可能会破坏,并且确实会破坏TFnFθ^nθ^nθ^nθ在许多实际情况下,具有足够奇怪的统计数据和/或抽样方案,而这些方案和抽样方案没有产生足够接近经验分布。F

现在,这1000个样本或任何神奇的数字是从哪里来的?这是由于我们无法绘制所有样本,因此我们只抽取了其中的一个随机子集。最右边的“模拟”箭头表示我们正在获取周围分布的另一种近似方法,也就是说,我们的蒙特卡洛模拟了是在周围的完整引导分布的足够好的近似值。θ Ñ θ θ * - [R ñ θ * Ñ θ Ñnnθ^nθθ^n(r)θ^nθ^n


7
这个答案完全错过了试图让非专业观众接触的意义。
Tripartio '18

20

我之所以回答这个问题,是因为我同意这是一件困难的事情,并且存在很多误解。埃夫隆(Efron)和迪亚科尼斯(Diaconis)在1983年《科学美国人》的文章中试图做到这一点,但我认为他们失败了。现在有几本专门介绍自举程序的书可以很好地完成工作。Efron和Tibshirani在1986年的《统计科学》中的文章中做得很好。我特别努力使自举方法书中的从业者可以访问自举,并且我对自举的介绍对R. Hall的应用非常引人入胜,但是非常先进和理论化。蒂姆·海斯特伯格(Tim Hesterberg)为戴维·摩尔(David Moore)的一本入门级统计书撰写了重要的补充性章节。已故的克利福德·伦讷堡(Clifford Lunneborg)有一本好书。Chihara和Hesterberg最近推出了一本中级数学统计书,其中涵盖了引导程序和其他重采样方法。甚至诸如Lahiri或Shao和Tu的高级书籍也提供了很好的概念解释。曼利(Manly)在涵盖排列和引导程序的书中做得很好,没有理由再对引导程序感到困惑了。重要的是要记住,引导程序取决于引导程序原理:“替换样本的采样在原始样本上的行为与原始样本在总体上的行为相同。在某些示例中,该原理失败了。重要的是要知道引导程序并非所有统计问题的答案。给出了很好的概念解释。曼利(Manly)在涵盖排列和引导程序的书中做得很好,没有理由再对引导程序感到困惑了。重要的是要记住,引导程序取决于引导程序原理:“替换样本的采样在原始样本上的行为与原始样本在总体上的行为相同。在某些示例中,该原理失败了。重要的是要知道引导程序并非所有统计问题的答案。给出了很好的概念解释。曼利(Manly)在涵盖排列和引导程序的书中做得很好,没有理由再对引导程序感到困惑了。重要的是要记住,引导程序取决于引导程序原理:“替换样本的采样在原始样本上的行为与原始样本在总体上的行为相同。在某些示例中,该原理失败了。重要的是要知道引导程序并非所有统计问题的答案。带有替换样本的采样在原始样本上的行为与原始样本在总体上的行为相同。在某些示例中,该原理失败了。重要的是要知道,引导程序并不能解决所有统计问题。带有替换样本的采样在原始样本上的行为与原始样本在总体上的行为相同。在某些示例中,该原理失败了。重要的是要知道,引导程序并不能解决所有统计问题。

这里是我提到的所有书籍的亚马逊链接以及更多内容。

带重采样和R的数理统计

自举方法及其应用

引导方法:从业人员和研究人员指南

Bootstrap方法及其R应用程序简介

相关数据的重采样方法

生物学中的随机,自举和蒙特卡洛方法

引导简介

《业务统计指南》的实践第18章:自举方法和排列测试

通过重采样进行数据分析:概念和应用

折刀,引导程序和其他重采样计划

折刀和靴子

假设的置换,参数和自举检验

Bootstrap和Edgeworth扩展


2
@拖延者。我经常这样做。在某些情况下,我急于发布我的答案,然后稍后再整理。我还没有将链接地址按标题转换为链接的窍门,而且我不确定这是否必要。无论哪种方式都可以单击,但是如果您迫不及待,我不介意您进行编辑。实际上,我对此表示赞赏。
迈克尔·切尔尼克

1
我打算将我的评论改为“我不介意您进行编辑”,而删除了“但是如果您不能等待”。我知道您所做的工作更加整洁,轻松,可能花费的时间更少,但是我还没有学到,而且我不认为这和某些主持人和其他成员的做法一样重要。
Michael Chernick

1
10,000

谢谢拖延者。我预计今天可能会达到总数。
Michael Chernick

10

通过自举,您只需从同一组数据(您的样本数据)中一次又一次地采样,即可估算出您对整个人口(真实世界中的真实情况)的估算有多准确。

如果您要抽取一个样本并对真实人口进行估算,则可能无法估算出您的估算有多准确-我们只有一个估算,并且尚未确定该估算如何随我们可能遇到的不同样本而变化。

通过自举,我们使用这个主要样本生成多个样本。例如,如果我们在1000天内每天测量一次利润,则可以从该集合中随机抽取样本。我们可能会从一个随机的一天中获利,进行记录,从另一个随机的一天中获得利润(可能恰好与之前的同一天-进行替换采样),进行记录,依此类推,直到获得“新” 1000天的样本(来自原始样本)。

此“新”样本与原始样本不同-实际上,我们可能会如上所述生成多个“新”样本。当我们查看均值和估计的变化时,我们可以了解原始估计的准确性。

编辑-回应评论

“较新的”样本与第一个样本不同,因此基于这些样本的新估计会有所不同。这模拟了人口的重复样本。引导程序生成的“较新”样本的估计值的变化将阐明在给定总体样本量不同的情况下,样本估计值将如何变化。实际上,这就是我们可以尝试测量原始估计的准确性的方法。

当然,您可以从人口中提取几个新样本,而不是自举,但这可能是不可行的。


5
谢谢!我非常了解。我特别想知道从人口样本中进行重采样如何有助于理解基本人口。如果我们从样本中重采样,那我们是如何在了解有关总体而不是仅关于样本的知识?似乎有一个飞跃,这有点违反直觉。
艾伦·H。

4

我意识到这是一个古老的问题,答案可以接受,但是我想提供我对bootstrap方法的看法。我绝不是专家(更多的是统计用户,如OP),欢迎您提出任何更正或评论。

SiT(Si)

您可以考虑使用大小为98的所有子集,并获取JK-2(删除2个元素)或JK-3等。

现在,引导程序只是此内容的随机版本。通过选择替换进行重采样,您将“删除”随机数量的元素(可能没有),并通过一个(或多个)重复“替换”它们。

通过用重复替换,重新采样的数据集始终具有相同的大小。对于折刀,您可能会问,对尺寸为99而不是100的样本进行折刀处理有什么影响,但是如果样本大小“足够大”,则很可能不是问题。

在折刀中,切勿混用delete-1和delete-2等,以确保顶出的估计值来自相同大小的样本。

您还可以考虑将大小为100的样本分成10个大小为10的样本。这在某些理论上会比较干净(独立的子集),但将样本大小(从100减少到10)非常不切实际(大多数情况下)情况)。

您还可以考虑某些大小的部分重叠子集。所有这些都是通过bootstrap方法以自动,统一和随机的方式处理的。

此外,引导程序方法还可以根据原始样本的经验分布来估算统计数据的采样分布,因此,除了标准误差外,您还可以分析统计数据的其他属性。


1

复述福克斯,我会说是从你的观察样本反复重采样的过程中已经显示出从整个人口模仿原始采样的过程开始。


上面的链接不存在,所以我不知道福克斯怎么说。但是,我所担心的自举程序都不会产生错误。假设您想了解地球上语言的相对频率。如果您从互联网上获取样本并重新采样,那么您将错过所有不在网络上的语言。
aquagremlin

1

总体的有限采样以近似直方图近似的方式近似分布。通过重新采样,每个bin数都会更改,您将获得一个新的近似值。大计数值在原始总体采样集中的波动幅度都小于小计数值。由于您是在向外行人解释这一点,因此您可以辩称,对于两种情况下,较大的垃圾箱数量,这大约是垃圾箱数量的平方根。

2080100(0.2×0.8)×1001:4

我认为必须强调的是,引导程序不会发现“新”数据,这是一种便捷,非参数的方法,如果 真正的概率是由被采样的样本给定的,则可以近似地确定样本与样本之间的波动。


我对您的答案进行了细微的格式更改-如果您觉得不合适,请随时将其还原。可能需要进一步澄清的是为什么存在平方根?
蒂姆

1

请注意,在经典推论统计中,将样本连接到总体作为总体的良好估计的理论实体是采样分布(可以从总体中提取所有可能的样本)。引导程序方法正在创建一种采样分布(基于多个样本的分布)。当然,这是一种最大似然法,但其基本逻辑与经典的基于正态分布的统计数据背后的传统概率论没有什么不同。


0

我的观点是非常微小的。

Bootstrap之所以有效,是因为它在计算上充分利用了我们研究议程的主要前提。

更具体地说,在统计学,生物学或大多数非理论科学领域,我们研究个体,从而收集样本。

但是,我们希望从这样的样本中推断出其他人,以便将来或以不同的样本呈现给我们。

使用引导程序,通过在样本的各个组成部分上明确建立模型,我们可以更好地(通常使用较少的假设)推断和预测其他个体。


1
这似乎并没有将引导程序与以原始数据开始的任何其他统计过程区分开来。似乎只能将其与基于摘要统计信息或合并频率的过程区分开来。
ub

0

向初学者解释时,我认为举一个具体的例子会有所帮助...

想象一下,您从某个总体中随机获得了9个测量值的样本。样本的平均值为60。我们可以确定整个人口的平均值也为60吗?显然不是因为小样本会有所不同,所以60的估计值可能不准确。为了找出类似的样本数量会有多少变化,我们可以使用称为引导程序的方法进行一些实验。

样本中的第一个数字是74,第二个数字是65,所以让我们想象一下一个大的“假装”人口,其中包括第九个74,第九个65,依此类推。从该总体中抽取随机样本的最简单方法是从九个样本中随机抽取一个数字,然后替换为原来的九个样本,然后随机选择另一个样本,依此类推,直到获得一个“重新采样”为9。执行此操作时,根本没有出现74,但是其他一些数字出现了两次,平均值为54.4。(这是在电子表格上设置的,网址http://woodm.myweb.port.ac.uk/SL/resample.xlsx-单击屏幕底部的引导程序选项卡。)

当我以这种方式进行1000次重新抽样时,其均值从44变到80,其中95%在48到72之间。这表明误差高达16-20个单位(44比假装的总体平均值低16, 80是以上20个单位),使用大小为9的样本估算总体平均值。并且我们有95%的信心可以确定误差将小于或等于12。因此我们可以有95%的信心,即总体平均数将介于48到72之间。

这里掩盖了许多假设,显而易见的假设是,样本提供了有用的人口图片-经验表明,只要样本相当大(9有点小,但更容易看看发生了什么)。http://woodm.myweb.port.ac.uk/SL/resample.xlsx上的电子表格使您可以查看单个重采样,绘制1000个重采样的直方图,尝试使用较大的样本等。本文中有更详细的说明在 https://arxiv.org/abs/1803.06214


这是基本的,也许是直观的,但是我不认为这是引导程序起作用的原因。
Michael Chernick '18
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.