Answers:
首先,我将检查平均值是否适合当前任务。如果您正在寻找偏态分布的“典型值或中心值”,则平均值可能会指向一个非代表性的值。考虑对数正态分布:
x <- rlnorm(1000)
plot(density(x), xlim=c(0, 10))
abline(v=mean(x), col="red")
abline(v=mean(x, tr=.20), col="darkgreen")
abline(v=median(x), col="blue")
平均值(红线)与大量数据相距甚远。修整后的平均值(绿色)和中位数(蓝色)的20%接近“典型”值。
结果取决于“非正态”分布的类型(实际数据的直方图会有所帮助)。如果它不偏斜,但尾巴很重,则您的配置项将非常宽。
无论如何,我认为引导确实是一个好方法,因为它也可以为您提供不对称的配置项。该R
软件包simpleboot
是一个好的开始:
library(simpleboot)
# 20% trimmed mean bootstrap
b1 <- one.boot(x, mean, R=2000, tr=.2)
boot.ci(b1, type=c("perc", "bca"))
...给您以下结果:
# The bootstrap trimmed mean:
> b1$t0
[1] 1.144648
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 2000 bootstrap replicates
Intervals :
Level Percentile BCa
95% ( 1.062, 1.228 ) ( 1.065, 1.229 )
Calculations and Intervals on Original Scale
如果您愿意采用半参数解决方案,请使用以下方法:Johnson,N.(1978)修改后的t检验和非对称总体的置信区间,JASA。置信区间的中心偏移,其中是总体第三矩的估计,并且宽度保持不变。假设置信区间的宽度为,并且均值的校正为,则需要有一个相当大的偏度(大约)对 κ Ö(ñ-1/2)ø(ñ-1)ñ1/2>20Ñ>400。引导程序应为您提供一个渐近等效的间隔,但您也会在图像中添加模拟噪声。(根据一般的Bootstrap和Edgeworth扩展(Hall 1995)理论,bootstrap CI自动校正相同的一阶项。)关于模拟证据,我可以回想起,bootstrap CI比基于分析的CI胖一些。表达式。
有了均值校正的分析形式,您可以立即了解在估计均值问题中是否确实需要考虑偏斜度。从某种意义上说,这是情况有多严重的诊断工具。在Felix给定的对数正态分布的示例中,总体分布的归一化偏度为,即。CI的宽度(使用总体分布的标准偏差)为,而均值的校正为(标准偏差已迁移至分子,因为kappa = (exp(1)+2)*sqrt( exp(1) - 1) = 6.184877
s = sqrt( (exp(1)-1)*exp(1) ) = 2.161197
2*s*qnorm(0.975)/sqrt(n) = 0.2678999
kappa*s/(6*n) = 0.00222779
kappa
是无标度偏度,而约翰逊公式则处理未标度人口的第三中心矩),即CI宽度的1/100。你应该打扰吗?我会说,不。