可以使用引导重采样来计算数据集方差的置信区间吗?


9

我知道,如果您多次对数据集进行重新采样并每次计算平均值,则这些均值将遵循正态分布(通过CLT)。因此,您可以对数据集的平均值计算置信区间,而无需对数据集的概率分布进行任何假设。

我想知道您是否可以对差异做类似的事情。也就是说,如果我要多次从数据集中重新采样并每次计算方差,那么这些方差会遵循一定的分布吗(不管数据集的原始概率分布是什么)?

我知道,如果原始数据集是正态的,则方差将遵循卡方分布。但是在不正常的情况下该怎么办?

Answers:


10

可以使用Bootstrap重采样来计算数据集方差的置信区间吗?

是的,就像其他许多统计数据一样。

我知道,如果您多次对数据集进行重新采样并每次计算平均值,则这些均值将遵循正态分布(通过CLT)。

并非总是这样,如果您进行均值引导,则即使对于CLT适用的分布,引导均值也将遵循正态分布。

在下面的示例中,我对的样本的均值进行了重新采样,其中对10000次进行了重新采样:ñ=100

在此处输入图片说明

这远非正常。

原始样本由九十七个“ 0”值以及一个“ 1”,“ 2”和“ 100”组成。

这是我运行以生成上面图的(R)代码:

 x <- c(rep(0,97),1,2,100)
 y <- replicate(10000,mean(sample(x,replace=TRUE)))
 plot(table(y),type="h")

问题在于,在这种情况下,样本大小(100)对于CLT而言太小,无法适用于这种分布形状。再采样多少次都没关系。

但是,如果原始样本量大得多,则类似这样的样本的重采样分布将看起来更正常(尽管始终是离散的)。

这是重新采样上述数据(黑色)时的ecdfs,并且具有相同比例但值是十倍数量(红色;即n = 1000)的值:

在此处输入图片说明

如我们所见,对大样本重新采样时的分布函数看起来确实更正常。

如果我要多次从数据集中重新采样并每次计算方差,这些方差是否会遵循一定的分布

不,出于相同的原因,它不一定代表真实意思。

但是,CLT也适用于方差*;只是您不能认为CLT仅通过进行多次重采样即可应用于引导程序重采样。如果原始样本大小足够大,则可能(在正确的条件下)倾向于使均值的重采样分布(以及更高的矩,如果存在的话)相对接近于正态分布(相对于较小样本中的分布)最小)。

*如果您考虑,则CLT通常适用于方差(假设存在适当的矩)很直观。。令 ; 然后,因此,如果CLT应用于变量,则可以将其应用于。现在只是的缩放版本;如果CLT适用于,它将适用于 。但是,此论点的概述并不完全牢固,并且可能有些起初可能不会想到的例外情况。sñ2=1个ñ一世=1个ñX一世-X¯2ÿ一世=X一世-X¯2sñ2=ÿ¯ÿsñ2sñ-1个2sñ2sñ2sñ-1个2

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.