为什么平均每个引导样本大约包含三分之二的观测值?


42

我碰到过这样的断言:每个引导程序样本(或袋装树)平均将包含大约的观测值。2/3

我了解到,在有替换替换的样本中的抽签中,没有被选中的几率是,这大约有未被选中的几率。Ñ 1 - 1 / Ñ ñ 1 / 3nn(11/n)n1/3

为什么此公式始终给出的数学解释是什么?1/3


10
我相信这是引导632+规则中的来源。.632
gung-恢复莫妮卡(Monica)

Answers:


29

本质上,问题在于显示 (当然,e ^ {-1} = 1 / e \ approx 1/3,至少非常粗略)。limn(11/n)n=e1
e1=1/e1/3

它在很小的n下不起作用n-例如在n=2(11/n)n=14。它通过13n=6,通过0.35n=11,和0.366n=99。一旦超过n=111e\ frac {1} {3}更好13

在此处输入图片说明

灰色虚线位于13;红线和灰线位于1e

除了展示形式推导(很容易找到)以外,我将概述为什么(略)更普遍的结果成立:

ex=limn(1+x/n)n

(许多人将其定义为,但是您可以从更简单的结果中证明这一点,例如定义。)exp(x)elimn(1+1/n)n

事实1:这是关于幂和幂的基本结果的exp(x/n)n=exp(x)

事实2:当大时,这来自于的级数展开。nexp(x/n)1+x/nex

(我可以为每个参数提供更全面的论据,但我想您已经知道它们了)

用(1)中的(2)代替。做完了 (要使它作为更正式的论据起作用,将需要一些工作,因为您必须证明事实2中的剩余项不够大,以至于使用幂时会引起问题。但这是直觉而不是形式证明。)n

[或者,只需将的泰勒级数设为一阶。第二种简单的方法是采用的二项式展开式,并逐项取极限,表明它给出了。]exp(x/n)(1+x/n)nexp(x/n)

因此,如果,只需替换。ex=limn(1+x/n)nx=1

马上,我们得到的结果在该答案的顶部,limn(11/n)n=e1


正如gung在评论中指出的那样,您问题的结果是632引导程序规则的由来

例如看

Efron,B.和R. Tibshirani(1997),
“交叉验证的改进:.632+ Bootstrap方法”,《
美国统计协会学报》,第1卷。92,No。438。(六月),第548-560页


41

更准确地说,每个引导程序样本(或袋装树)将包含的样本。11e0.632

让我们看看引导程序是如何工作的。我们有一个原始样本其中包含项目。我们从原始集合中抽取带有替换项的项目直到我们得到另一个大小为集合。x1,x2,xnnn

,在第一抽奖中选择任何一项(例如)的可能性为。因此,选择该项目的可能性为。那只是第一次抽奖;总共有抽签,所有抽签都是独立的,因此从不选择任何抽签的项目的概率为。x11n11nn(11n)n

现在,让我们考虑一下当越来越大时会发生什么。我们可以使用通常的演算技巧(或Wolfram Alpha),随着趋于无穷大而取极限: nn

limn(11n)n=1e0.368

那就是没有选择一项的可能性。将其减去一个,即可找到被选中项目的概率,得出0.632。


5

可以将替换抽样作为一系列二项式试验的模型,其中选择“成功”为一个实例。对于实例的原始数据集,“成功”的概率为,“失败”的概率为。对于的样本大小,通过二项分布给出精确选择次实例的几率:n1/n(n1)/nbx

P(x,b,n)=(1n)x(n1n)bx(bx)

在引导程序样本的特定情况下,样本大小等于实例数。让接近无穷大,我们得到:bnn

limn(1n)x(n1n)nx(nx)=1ex!

如果我们的原始数据集是大的,我们可以用这个公式来计算某个实例时选择准确的概率的引导样品倍。对于,概率为或大约。因此,实例至少采样一次的概率为。xx=01/e0.36810.368=0.632

不用说,我用笔和纸刻苦地推导了它,甚至没有考虑使用Wolfram Alpha。


3

只需添加@retsreg的答案,这也可以通过R中的数值模拟很容易地证明:

N <- 1e7 # number of instances and sample size
bootstrap <- sample(c(1:N), N, replace = TRUE)
round((length(unique(bootstrap))) / N, 3)
## [1] 0.632

1

通过计数很容易看出这一点。总共可能有多少个样本?n ^ n。多少个不包含特定值?(n-1)^ n。没有特定值的样本的概率-(1-1 / n)^ n,约为极限值的1/3。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.