如我所见,带替换的采样比不带替换的采样有两个优点:
1)您不必担心有限的人口校正。
2)有机会多次绘制总体中的元素-然后您可以循环使用测量并节省时间。
当然,从学术观点出发,必须研究这两种方法。但是从实际的POV来看,鉴于替换的优势,我不明白为什么不考虑不替换就进行采样。
但是我是统计学的初学者,因此可能有很多充分的理由说明为什么不进行替换可能是更好的选择-至少对于特定用例而言。拜托,让我困惑!
如我所见,带替换的采样比不带替换的采样有两个优点:
1)您不必担心有限的人口校正。
2)有机会多次绘制总体中的元素-然后您可以循环使用测量并节省时间。
当然,从学术观点出发,必须研究这两种方法。但是从实际的POV来看,鉴于替换的优势,我不明白为什么不考虑不替换就进行采样。
但是我是统计学的初学者,因此可能有很多充分的理由说明为什么不进行替换可能是更好的选择-至少对于特定用例而言。拜托,让我困惑!
Answers:
扩展@Scortchi的答案。。。
假设人口有5个成员,您有预算抽样5个人。您对变量X的总体平均值感兴趣,该变量是该总体中个体的特征。您可以按自己的方式做,并随机更换样品。样本均值的方差为V(X)/ 5。
另一方面,假设您对五个人进行了抽样而不进行替换。然后,样本均值的方差为0。您已经对整个总体进行了采样,每个个体只采样了一次,因此“样本均值”和“人口均值”之间没有区别。他们是一样的东西。
在现实世界中,每次必须进行有限的总体校正时,您都应该高兴起来,因为(drumroll ..)会使估算器的方差下降而无需收集更多数据。几乎没有任何作用。就像魔术:好魔术。
说出与数学完全相同的内容(注意<,并假设样本大小大于1):
校正<1表示应用校正会使方差下降,因为您通过将校正值乘以方差来应用校正。差异下降==好。
朝着完全与数学相反的方向前进,请思考您的要求。如果您想了解人口并可以从中抽样5个人,那么您是否有机会通过对同一个人进行5次抽样来学习更多的知识,或者通过确保你采样了5个不同的家伙?
现实情况几乎与您所说的相反。几乎永远不会用替换进行采样---仅当您在进行自举之类的特殊操作时。在那种情况下,您实际上是在试图弄乱估计量,并给它一个“太大”的方差。
我认为这里的答案并不完全足够,它们似乎为您的数据量非常低的有限情况辩护。
有了足够大的样本,根本就不用担心,特别是对于许多引导程序重采样(〜1000)而言。如果我从真实分布中抽样了一个大小为10,000的数据集,并用替换方法进行了1000次重采样,那么我获得的方差(与不进行替换而得到的方差相反)完全可以忽略不计。
我想说的是更准确的答案:在估算二阶统计量的置信度时,不进行替换就必须进行重采样。例如,如果我使用自举来估计我在色散测量中的不确定性。用这样的量替换进行拉伸可以人为地使回收的分散体偏低。
有关实际数据的具体示例,如果您愿意的话,请参见本文 https://arxiv.org/abs/1612.02827
它在第10页上简要讨论了您的问题
我得到的结果是,无需更换就如同更换一样,并消除了所有困难。请注意,使用替换计算要容易得多。因此,如果概率涉及p和q,则在有替换情况下成功和失败的概率,简单地通过用(Nab)C(Ra)替换p ^ aq ^ b来获得无替换情况下的相应概率。任何a和b,其中N,R是球的总数和白球的数目。请记住,p被视为R / N。
巴拉苏布拉曼尼