自举如何很好地估计估计量的采样分布?


29

最近研究了引导程序后,我想到了一个概念性问题,但仍然使我感到困惑:

您有一个人口,并且想知道一个人口属性,即,在这里我用代表人口。例如,这个可能是人口平均值。通常,您无法从总体中获取所有数据。因此,您从总体中得出了大小为的样本为了简单起见,假设您有iid示例。然后,您获得估算器。您想使用来推断,因此您想知道的可变性 。P θ X Ñ θ = X θ θ θθ=g(P)PθXNθ^=g(X)θ^θθ^

首先,存在的真实采样分布。从概念上讲,您可以从总体中抽取许多样本(每个样本的大小均为)。每次您都有因为每次您都有不同的样本。然后最后,您将能够恢复的真实分布。好的,至少这是估算分布的概念基准。让我重申一下:最终目标是使用各种方法来估计或近似的真实分布。 Ñ θ =Xθ^Nθ^=g(X) θθ^θ^θ^

现在,问题来了。通常,只有一个样本包含数据点。然后,您可以多次从该样本中重新采样,然后得出的引导分布。我的问题是:此引导分布与的真实采样分布有多接近?有没有量化的方法?Ñ θXNθ^θ^


1
这个高度相关的问题包含大量其他信息,以至于使这个问题可能重复。
西安

首先,感谢大家如此迅速地回答我的问题。这是我第一次使用该网站。我没想到我的问题会诚实地引起任何人的注意。我在这里有一个小问题,什么是“ OP”?@ Silverfish
KevinKim 2015年

@陈晋:“ OP” =原始海报(即您!)。我接受使用缩写的歉意可能会造成混淆。
银鱼

1
我已经对标题进行了编辑,以使其更符合您的说法:“我的问题是:这与的真实分布有多近?有没有量化的方法?” 如果您认为我的编辑不符合您的意图,请随时还原。θ^
银鱼

@Silverfish非常感谢。当我开始张贴此海报时,我实际上不确定我的问题。这个新标题很好。
KevinKim 2015年

Answers:


20

在信息论中,量化一个分布与另一个分布之间的“接近”程度的典型方法是使用KL散度

让我们尝试使用高度偏斜的长尾数据集来说明它-飞机到达休斯敦机场的延迟(来自hflights软件包)。令为均值估计量。首先,我们发现的抽样分布,然后引导分布 θ θθ^θ^θ^

这是数据集:

在此处输入图片说明

真正的平均值是7.09分钟。

首先,我们进行一定数量的采样以获取的采样分布,然后获取一个采样并从中获取许多引导采样。θ^

例如,让我们看一下样本大小为100和5000次重复的两个分布。我们从视觉上看到,这些分布相距甚远,KL散度为0.48。

在此处输入图片说明

但是,当我们将样本量增加到1000时,它们开始收敛(KL散度为0.11)

在此处输入图片说明

当样本数量为5000时,它们非常接近(KL散度为0.01)

在此处输入图片说明

当然,这取决于您获得的引导程序样本,但是我相信您可以看到,随着我们增加样本大小,KL散度会下降,因此引导程序分布按样本分布而言KL Divergence。可以肯定的是,您可以尝试进行多次引导,并取平均KL散度。 θθ^θ^

这是该实验的R代码:https : //gist.github.com/alexeygrigorev/0b97794aea78eee9d794


5
+1,这也表明,对于任何给定的样本大小(例如100),自举偏差可能很大且不可避免。
变形虫说莫妮卡(Monica)恢复2015年

这真棒!所以,为了让分布从引导接近的真实分布,我们需要大样本吧?对于任何固定的样本大小,引导程序生成的分布可能与@amoeba提到的TRUE分布非常不同。 θ Ñθ^θ^N
KevinKim 2015年

我的下一个问题是:如果我将固定得足够大,那么我做了2个引导程序,其中一个只是对重采样,而另一个对重采样。这两个引导程序中的分布之间有什么区别?这个问题本质上是在询问我们何时修复,在生成分布中扮演什么角色。@Grigorev= 10 = 10000 θ Ñ θNB=10B=10000θ^NBθ^
KevinKim 2015年

1
@Chen,但分布的是你做重复采样得到的东西,对不对?因此,和之间的区别在于,在一种情况下,您将获得数字来构建分布(信息不多对其标准偏差的估计不是很可靠),而在另一种情况下,您将获得数字(很多更可靠)。=10=1000010θ^B=10B=100001010000
变形虫说莫妮卡

1
@Chen,我认为您可能有点困惑,或者对于您的评论中的不太清楚。如果重采样次,则会得到一组数字。分配情况如何?这是一组数字!这些数字来自您所谓的分布。您获得的数字越多,您估计。 5 5 F B F BF555FBFB
变形虫说莫妮卡

23

引导程序基于经验CDF与真实CDF的收敛,即 对于每个收敛(随着趋于无穷大)到。因此的自举分布的 收敛是由这种收敛驱动的,该收敛以每个的速率,由于即使此速率和限制分布不会自动转移到ñ ˚F X X θX 1... X Ñ= ˚F Ñ

F^n(x)=1ni=1nIXixXiiidF(x)
nF(x)xθ^(X1,,Xn)=g(F^n) Xn x ˚F Ñ ˚F Ñ
n{F^n(x)F(x)}distN(0,F(x)[1F(x)])
g(F^n)。在实践中,为了评估近似值的变异性,您可以通过双引导程序(即通过引导引导程序评估来生成分布的引导程序评估。g(F^n)

作为更新,这里是在类的图示我使用: 在此处输入图片说明 其中LHS真实CDF比较与经验CDF为的观测和RHS曲线的LHS的复制品,对250个不同的样品,以测量cdf近似值的变异性。在示例中,我了解了事实,因此可以根据事实进行模拟,以评估变异性。在现实情况下,我不知道,因此必须从才能生成类似的图形。˚F Ñ Ñ = 100 250 ˚F ˚F ÑFF^nn=100250FF^n

进一步更新:这是从经验CDF开始时的电子管图片: 在此处输入图片说明


5
这个答案的症结在于,引导程序之所以有效,是因为它是大样本近似值。我认为这一点不够强调
Shadowtalker,2015年

2
我的意思是,“通常强调得足够多”
Shadowtalker

@西安非常感谢。我喜欢最后两个面板,因此在此示例中,假设我们不知道真正的cdf,即lhs上的红色曲线,我只是从一个样本中得到了经验性的cdf。然后,我从该样本中重采样。然后,我生成与rhs类似的图形。在您的当前rhs图上,这个新图形的管是否会比当前管的管宽?而且,新电子管是否仍会以真实的cdf为中心,即,您当前rhs图上电子管的红色曲线? Ñ=100F^n=100
KevinKim 2015年

3
通过基于一个经验性cdf创建的样本来创建经验性cdf所产生的电子管的宽度最终要小于根据真实所产生的电子管的宽度,因为我们一直使用相同的个数据点。而新的管围绕着的经验CDF,而不是真正的。因此,该管的尺寸和位置存在偏差。ñ ˚FFnF
西安

@西安非常好!如果将第二个和第三个数字组合成一个数字
那就
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.