我知道这是一个非常热门的话题,没有人能真正给出简单的答案。不过,我想知道以下方法是否有用。
引导方法仅在样本或多或少(准确读取)与原始总体相同的分布时才有用。为了确定是这种情况,您需要使样本大小足够大。但是什么足够大?
如果我的前提是正确的,那么在使用中心极限定理来确定总体均值时,您也会遇到相同的问题。只有当样本量足够大时,您才能确定样本均值的总体呈正态分布(在总体均值附近)。换句话说,您的样本需要足够好地代表您的人口(分布)。但是,又有什么足够大的呢?
以我的情况(管理过程:完成需求所需的时间与需求量)为例,我有一个多模式分布的人群(所有需求在2011年完成),其中99%的人相信它会更少我想要研究的数据通常要比人口分布(当前和过去一天之间完成的所有需求,理想情况下此时间跨度要尽可能小)更好。
我的2011年人口总数不足以制作样本,样本数量为n。我选择x的值 ,假设为10(x = 10)。现在,我通过反复试验来确定合适的样本量。我取n = 50,看看是否使用Kolmogorov-Smirnov正态分布样本。如果是这样,我重复相同的步骤,但样本大小为40,如果不重复,则样本大小为60(以此类推)。
一段时间后,我得出结论,是获得或多或少很好地表示我的2011年人口的绝对最小样本量。因为我知道我感兴趣的人群(在今天和过去一天之间完成的所有需求)的方差较小,所以我可以放心地使用n = 45的样本量进行引导。(间接地,n = 45决定了我的时间跨度:完成45个需求所需的时间。)
简而言之,这就是我的想法。但是由于我不是统计学家,而是一位工程师,他的统计学课程在随后的日子里发生,所以我不能排除我只是产生了很多垃圾的可能性。你们有什么感想?如果我的前提合理,我是否需要选择一个大于10或更小的?根据您的回答(我是否需要感到尴尬?:-),我将发布更多讨论想法。
关于第一个答案的答复感谢您的答复,您的回答对我非常有用,尤其是书链接。
但是我很害怕在提供信息的过程中我完全掩盖了我的问题。我知道引导程序样本将接管总体样本的分布。我完全跟随你,但是...
您的原始人口样本需要足够大,以适度确定您的人口样本分布与人口的“实际”分布相对应(等于)。
这仅是关于如何确定原始样本大小需要多少的想法,以便合理确定样本分布与总体分布相对应。
假设您具有双峰人口分布,并且一个顶部比另一个顶部大很多。如果样本数量为5,则很有可能所有5个单位的值都非常接近大型顶部(随机抽取一个单位的机会最大)。在这种情况下,您的样本分布将看起来是单峰的。
样本数量为一百时,样本分布也是双峰的机会就更大了!!自举的麻烦在于您只有一个样本(并且您将在该样本的基础上进一步构建)。如果样本分布确实与总体分布不符,那么您就有麻烦了。这只是使“不良样本分布”机会尽可能低而又不必使样本大小无限变大的想法。