引导程序样本的大小


9

我正在学习将引导程序作为估计样本统计量方差的一种方法。我有一个基本的疑问。

引用自http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf

•我们应该重新采样多少个观测值?一个很好的建议是原始样本大小。

我们如何重新采样与原始采样中一样多的观测值?
如果我的样本量为100,并且正在尝试估算均值的方差。如何从总样本量为100的样本中获取多个大小为100的引导样本?在这种情况下,只能有1个引导程序样本,这与原始样本等效吗?

我显然误会了一些非常基本的东西。据我所知,理想 bootstrap样本总是无限的,并确定必要的引导样品我的数据我不得不进行收敛检验的数量保持我的精度要求的初衷。
但我真搞不清楚什么应该是每一个的大小个体引导样品。


7
p的顶部。3,以及那里的插图清楚且突出地规定重新采样是替换。
ub

但是,如果我的引导样本大小与我的观察总数相同,该如何替换?
user1265125 '16

简化示例-因此,如果我有4,1、3、7、5作为样本集。如何创建多个大小为5的引导程序样本?唯一大小为5的引导程序样本将是4,1、3、7、5,即原始样本集。
user1265125 '16

1
哦,等等,我明白了-“•为了模拟采样分布,我们可以从由许多样本副本组成的“种群”中提取重复的随机样本”
user1265125

Answers:


16

引导程序是通过采样进行更换的。您似乎还不清楚“带替换”一词。正如whuber所指出的那样,在p上给出了替换采样的图示。您引用的论文中的3(摘录如下)。

更换样本说明

(来源:http : //web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf

与更换采样的一般思想是,任何情况下,可以被采样的多个(第一图像上面的绿色大理石;上的最后一个图像蓝色和紫色弹子)次。如果您想想象一下自己的过程,可以考虑一个装满彩色大理石的碗。假设您要从此碗中取出一些大理石。如果您更换取样,那么您只需将大理石从碗中取出并放在一边。如果采样更换,那么你会一个接一个采样弹珠,采取单一的大理石出来的碗,签约下来它在你的笔记本颜色,然后返回回到碗里。因此,在替换采样时,可以对同一大理石进行多次采样。

因此,采样时无需更换,你可以品尝到只有弹珠出含碗大理石,而在抽检的情况下,更换您可以品尝到任意数量的弹珠(甚至更大然后)从有限的人口。如果您从大理石中取样而没有更换,则最终会得到完全相同的样品,但是顺序是随机的。如果采样出弹子更换,每次都不可能采样大理石的不同组合。nnnnnnn

有采样的方式,而不更换情况下进行规模人口的和抽样的方式更换。如果您想了解有关其背后的数学的更多信息,可以查看2.1。Hossein Pishro-Nik撰写的《概率概论》在线手册中的组合学一章。WolframMathWorld页面还有一个方便的备忘单(nk)kn(n+k1k)


0

我们应该重新采样多少个观测值?一个很好的建议是原始样本大小。

当原始样本大小太大并且您不想/不能在完整数据集上训练模型时,“好的建议”就不是那么好。

PS:我想将此添加为问题的注释,但不允许添加任何注释...


1
您为什么要添加此建议?如果这是由于数据集太大而无法进行常规计算,则这是一个相关的实际问题,但它实际上不适用于此处提出的自举理论。此外,这是关于“估计样本统计量的方差”。这真的与一般训练模型有关吗?(注意。不要粗鲁,我知道您还不能发表评论,但这并不能使您在发表此类评论时没有提供相关的答案。您必须更加清楚,或者发表您自己的问题)
IWS
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.