引导程序是否适合此连续数据？

我是一个完整的新手:)

我正在从大约745,000的人口中进行10,000个样本量的研究。每个样本代表一个“百分比相似度”。大部分样本在97％-98％左右，但少数样本在60％到90％之间，也就是说，分布严重负向倾斜。约0.6％的结果为0％，但这些将与样品分开处理。

所有10,000个样本的平均值为97.7％，仅在Excel中，StdDev为3.20。我知道StdDev在这里并不是真正适用的，因为结果不是正态分布的（因为+3.20会使您超过100％！）。

我的问题是：

自举（对我来说是个新概念）是否合适？
我是否正确引导:)
足够的样本量是多少？

我正在做的是对10,000个结果进行重新采样（并替换）并计算新的均值。我执行了数千次，并将每个均值存储在一个数组中。然后，我计算“均值”，这是我的统计结果。要计算出99％的置信区间，我选择了第0.5％的值和第99.5％的值，这产生了非常狭窄的范围：97.4％-98.0％。这是有效的结果，还是我做错了什么？

至于样本量，我仅抽样了约1.3％的人口-我不知道这是否足够。我如何知道我的样本是否代表人群？理想情况下，我希望对+/- 0.50％的平均值（即97.2％-98.2％）有99％的信心。

在此先感谢您提供任何提示！

bootstrap sample-size resampling

— 格伦·W
source

标准偏差在这里和其他任何地方一样适用：它提供有关数据分散的有用信息。特别是，sd除以样本大小的平方根是一个标准误差：它估计均值的样本分布的离散度。让我们计算一下：

3.2 % / \sqrt{10000} = 0.032 % = 0.00032.

$3.2\% / \sqrt{10000} = 0.032\% = 0.00032.$

$\pm 0.50\%$

尽管数据不是正态分布的，但样本均值非常大，因此样本均值非常接近正态分布。 例如，这里是具有与您相同特征的样本的直方图，在右边是来自同一总体的另外一千个样本的均值的直方图。

它看起来非常接近Normal，不是吗？

$100 - \alpha\%$ $Z_{1-\alpha/200}$ $Z_{1-\alpha/200} = 2.5758$ $99\%$

(0.977 - 2.5758 (0.032) / \sqrt{10000}, 0.977 + 2.5758 (0.032) / \sqrt{10000}) = (97.62 %, 97.78 %) .

$\left(0.977 - 2.5758(0.032) / \sqrt{10000},\ 0.977 + 2.5758(0.032) / \sqrt{10000}\right) \\ = \left(97.62\%, 97.78\%\right).$

通过反转这种关系来解决样本量，可以找到足够的样本量。在这里，它告诉我们您需要一个大约

(3.2 % / (0.5 % / Z_{1 - α / 200}))^{2} \approx 272.

$(3.2\% / (0.5\% / Z_{1-\alpha/200}))^2 \approx 272.$

$272$ $9999$

$(97.16\%, 98.21\%)$ $(97.19\%, 98.24\%)$

$10000$ $36$ $272$

R $0.977$ $0.032$

set.seed(17)
#
# Study a sample of 10,000.
#
Sample <- rbeta(10^4, 20.4626, 0.4817)
hist(Sample)
hist(replicate(10^3, mean(rbeta(10^4, 20.4626, 0.4817))),xlab="%",main="1000 Sample Means")
#
# Analyze a sample designed to achieve a CI of width 1%.
#
(n.sample <- ceiling((0.032 / (0.005 / qnorm(1-0.005)))^2))
Sample <- rbeta(n.sample, 20.4626, 0.4817)
cat(round(mean(Sample), 3), round(sd(Sample), 3)) # Sample statistics
se.mean <- sd(Sample) / sqrt(length(Sample))      # Standard error of the mean
cat("CL: ", round(mean(Sample) + qnorm(0.005)*c(1,-1)*se.mean, 5)) # Normal CI
#
# Compare the bootstrapped CI of this sample.
#
Bootstrapped.means <- replicate(9999, mean(sample(Sample, length(Sample), replace=TRUE)))
hist(Bootstrapped.means)
cat("Bootstrap CL:", round(quantile(Bootstrapped.means, c(0.005, 1-0.005)), 5))

— ub
source

我知道这篇文章已经很老了，但是对我很有帮助。感谢您分享你的知识。

— RDizzl3'9