引导程序是否适合此连续数据?


11

我是一个完整的新手:)

我正在从大约745,000的人口中进行10,000个样本量的研究。每个样本代表一个“百分比相似度”。大部分样本在97%-98%左右,但少数样本在60%到90%之间,也就是说,分布严重负向倾斜。约0.6%的结果为0%,但这些将与样品分开处理。

所有10,000个样本的平均值为97.7%,仅在Excel中,StdDev为3.20。我知道StdDev在这里并不是真正适用的,因为结果不是正态分布的(因为+3.20会使您超过100%!)。

我的问题是:

  1. 自举(对我来说是个新概念)是否合适?
  2. 我是否正确引导:)
  3. 足够的样本量是多少?

我正在做的是对10,000个结果进行重新采样(并替换)并计算新的均值。我执行了数千次,并将每个均值存储在一个数组中。然后,我计算“均值”,这是我的统计结果。要计算出99%的置信区间,我选择了第0.5%的值和第99.5%的值,这产生了非常狭窄的范围:97.4%-98.0%。这是有效的结果,还是我做错了什么?

至于样本量,我仅抽样了约1.3%的人口-我不知道这是否足够。我如何知道我的样本是否代表人群?理想情况下,我希望对+/- 0.50%的平均值(即97.2%-98.2%)有99%的信心。

在此先感谢您提供任何提示!

Answers:


19

标准偏差在这里和其他任何地方一样适用:它提供有关数据分散的有用信息。特别是,sd除以样本大小的平方根是一个标准误差:它估计均值的样本分布的离散度。让我们计算一下:

3.2%/10000=0.032%=0.00032.

±0.50%

尽管数据不是正态分布的,但样本均值非常大因此样本均值非常接近正态分布。 例如,这里是具有与您相同特征的样本的直方图,在右边是来自同一总体的另外一千个样本的均值的直方图。

图1

它看起来非常接近Normal,不是吗?

100α%Z1α/200Z1α/200=2.575899%

(0.9772.5758(0.032)/10000, 0.977+2.5758(0.032)/10000)=(97.62%,97.78%).

通过反转这种关系来解决样本量,可以找到足够的样本量。在这里,它告诉我们您需要一个大约

(3.2%/(0.5%/Z1α/200))2272.

2729999

图2

(97.16%,98.21%)(97.19%,98.24%)

1000036272


R0.9770.032

set.seed(17)
#
# Study a sample of 10,000.
#
Sample <- rbeta(10^4, 20.4626, 0.4817)
hist(Sample)
hist(replicate(10^3, mean(rbeta(10^4, 20.4626, 0.4817))),xlab="%",main="1000 Sample Means")
#
# Analyze a sample designed to achieve a CI of width 1%.
#
(n.sample <- ceiling((0.032 / (0.005 / qnorm(1-0.005)))^2))
Sample <- rbeta(n.sample, 20.4626, 0.4817)
cat(round(mean(Sample), 3), round(sd(Sample), 3)) # Sample statistics
se.mean <- sd(Sample) / sqrt(length(Sample))      # Standard error of the mean
cat("CL: ", round(mean(Sample) + qnorm(0.005)*c(1,-1)*se.mean, 5)) # Normal CI
#
# Compare the bootstrapped CI of this sample.
#
Bootstrapped.means <- replicate(9999, mean(sample(Sample, length(Sample), replace=TRUE)))
hist(Bootstrapped.means)
cat("Bootstrap CL:", round(quantile(Bootstrapped.means, c(0.005, 1-0.005)), 5))

2
我知道这篇文章已经很老了,但是对我很有帮助。感谢您分享你的知识。
RDizzl3'9
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.