确定自举法/建议方法所需的样本量


33

我知道这是一个非常热门的话题,没有人能真正给出简单的答案。不过,我想知道以下方法是否有用。

引导方法仅在样本或多或少(准确读取)与原始总体相同的分布时才有用。为了确定是这种情况,您需要使样本大小足够大。但是什么足够大?

如果我的前提是正确的,那么在使用中心极限定理来确定总体均值时,您也会遇到相同的问题。只有当样本量足够大时,您才能确定样本均值的总体呈正态分布(在总体均值附近)。换句话说,您的样本需要足够好地代表您的人口(分布)。但是,又有什么足够大的呢?

以我的情况(管理过程:完成需求所需的时间与需求量)为例,我有一个多模式分布的人群(所有需求在2011年完成),其中99%的人相信它会更少我想要研究的数据通常要比人口分布(当前和过去一天之间完成的所有需求,理想情况下此时间跨度要尽可能小)更好。

我的2011年人口总数不足以制作样本,样本数量为n。我选择x的值 ,假设为10x = 10)。现在,我通过反复试验来确定合适的样本量。我取n = 50,看看是否使用Kolmogorov-Smirnov正态分布样本。如果是这样,我重复相同的步骤,但样本大小为40,如果不重复,则样本大小为60(以此类推)。XñX10X=10ñ=504060

一段时间后,我得出结论,是获得或多或少很好地表示我的2011年人口的绝对最小样本量。因为我知道我感兴趣的人群(在今天和过去一天之间完成的所有需求)的方差较小,所以我可以放心地使用n = 45的样本量进行引导。(间接地,n = 45决定了我的时间跨度:完成45个需求所需的时间。)ñ=45ñ=45ñ=4545

简而言之,这就是我的想法。但是由于我不是统计学家,而是一位工程师,他的统计学课程在随后的日子里发生,所以我不能排除我只是产生了很多垃圾的可能性。你们有什么感想?如果我的前提合理,我是否需要选择一个大于10或更小的?根据您的回答(我是否需要感到尴尬?:-),我将发布更多讨论想法。X10

关于第一个答案的答复感谢您的答复,您的回答对我非常有用,尤其是书链接。
但是我很害怕在提供信息的过程中我完全掩盖了我的问题。我知道引导程序样本将接管总体样本的分布。我完全跟随你,但是...

您的原始人口样本需要足够大,以适度确定您的人口样本分布与人口的“实际”分布相对应(等于)。

这仅是关于如何确定原始样本大小需要多少的想法,以便合理确定样本分布与总体分布相对应。

假设您具有双峰人口分布,并且一个顶部比另一个顶部大很多。如果样本数量为5,则很有可能所有5个单位的值都非常接近大型顶部(随机抽取一个单位的机会最大)。在这种情况下,您的样本分布将看起来是单峰的。

样本数量为一百时,样本分布也是双峰的机会就更大了!!自举的麻烦在于您只有一个样本(并且您将在该样本的基础上进一步构建)。如果样本分布确实与总体分布不符,那么您就有麻烦了。这只是使“不良样本分布”机会尽可能低而又不必使样本大小无限变大的想法。

Answers:


38

我对这个问题很感兴趣,因为我看到了bootstrap一词,并且已经在bootstrap上写过书。人们还经常问:“我需要多少个引导程序样本才能对引导程序结果获得良好的蒙特卡洛近似值?” 对于这个问题,我建议的答案是不断增加大小,直到收敛为止。没有人能解决所有问题。

ñññ来自原始样本。引导程序原则是否成立不取决于任何单独的样本“看起来代表群体”。它所依赖的是您所估计的内容以及总体分布的某些属性(例如,这适用于具有有限方差而不是无限方差的总体分布的抽样均值)。无论人口分布如何,它都无法估算极端值。

自举理论涉及显示估计的一致性。因此,从理论上可以证明它适用于大样本。但是它也可以在小样本中工作。我已经看到,它适用于分类误差率估计,尤其适用于小样本量(例如双变量数据为20)。

现在,如果样本量非常小(例如4-),则引导程序可能无法工作,仅因为可能的引导程序样本集不够丰富。在我的书或Peter Hall的书中,都讨论了样本量过小的问题。但是,大量不同的引导程序样本很快变得很大。因此,即使样本量小到​​8,这也不成问题。您可以查看以下参考资料:


3
是否可以运行任何标准测试来检查那里是否不够(例如4个样本)?我有一个数据集,用于计算均值的自举置信区间,但有些人的数据点很少(某些情况下<8)。我的直觉告诉我,我应该忽略数据点少于n个的个人,但是我该如何定义截止点n?我希望找到一个公认的临界值(类似于混合模型分析中每组样本数的任意临界点是6还是7)。
RTbecard

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.