如何计算非正态分布样本中均值的置信区间?


19

如何计算非正态分布样本中均值的置信区间?

我了解引导方法通常在这里使用,但是我可以接受其他选择。当我在寻找非参数选项时,如果有人可以说服我一个参数解决方案有效,那会很好。样本大小> 400。

如果有人可以在R中提供样本,将不胜感激。


3
中心极限定理意味着样本均值的极限分布是正态的,而与原始数据的分布无关(在某些条件下)。在许多情况下,样本大小足够大,因此正态近似值非常准确,但准确度确实取决于父级分布-例如,如果发布原始数据的直方图可能会有所帮助。n>400

Answers:


18

首先,我将检查平均值是否适合当前任务。如果您正在寻找偏态分布的“典型值或中心值”,则平均值可能会指向一个非代表性的值。考虑对数正态分布:

x <- rlnorm(1000)
plot(density(x), xlim=c(0, 10))
abline(v=mean(x), col="red")
abline(v=mean(x, tr=.20), col="darkgreen")
abline(v=median(x), col="blue")

对数正态分布的均值(红色),20%均值(绿色)和中位数(蓝色)

平均值(红线)与大量数据相距甚远。修整后的平均值(绿色)和中位数(蓝色)的20%接近“典型”值。

结果取决于“非正态”分布的类型(实际数据的直方图会有所帮助)。如果它不偏斜,但尾巴很重,则您的配置项将非常宽。

无论如何,我认为引导确实是一个好方法,因为它也可以为您提供不对称的配置项。该R软件包simpleboot是一个好的开始:

library(simpleboot)
# 20% trimmed mean bootstrap
b1 <- one.boot(x, mean, R=2000, tr=.2)
boot.ci(b1, type=c("perc", "bca"))

...给您以下结果:

# The bootstrap trimmed mean:
> b1$t0
[1] 1.144648

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 2000 bootstrap replicates
Intervals : 
Level     Percentile            BCa          
95%   ( 1.062,  1.228 )   ( 1.065,  1.229 )  
Calculations and Intervals on Original Scale

非常感谢您提供详细的答案。您是否愿意评论百分比和调整后的百分比(BCa)统计数据之间的(最小)差异?
fmark 2011年

“自举偏差校正的加速(BCa)间隔是对百分比方法的修改,该方法可调整百分比以校正偏差和偏斜”(Hesterberg,T.,Monaghan,S.,Moore,D.,Clipson,A。, &Epstein,R.(2005)。Bootstrap方法和置换测试。《统计实践导论》 14.1–14.70。)。只要软件允许,就使用经过BCa校正的CI(注意:它需要> 1000次重采样)
Felix S

从simpleboot软件包的文档看来,不再支持修剪参数。:(
等是

8

如果您愿意采用半参数解决方案,请使用以下方法:Johnson,N.(1978)修改后的t检验和非对称总体的置信区间,JASA。置信区间的中心偏移,其中是总体第三矩的估计,并且宽度保持不变。假设置信区间的宽度为,并且均值的校正为,则需要有一个相当大的偏度(大约)对 κ Öñ-1/2øñ-1ñ1/2>20Ñ>400κ^/(6s2n)κ^O(n1/2)O(n1)n1/2>20n>400。引导程序应为您提供一个渐近等效的间隔,但您也会在图像中添加模拟噪声。(根据一般的Bootstrap和Edgeworth扩展(Hall 1995)理论,bootstrap CI自动校正相同的一阶项。)关于模拟证据,我可以回想起,bootstrap CI比基于分析的CI胖一些。表达式。

有了均值校正的分析形式,您可以立即了解在估计均值问题中是否确实需要考虑偏斜度。从某种意义上说,这是情况有多严重的诊断工具。在Felix给定的对数正态分布的示例中,总体分布的归一化偏度为,即。CI的宽度(使用总体分布的标准偏差)为,而均值的校正为(标准偏差已迁移至分子,因为(exp(1)+2)exp(1)1kappa = (exp(1)+2)*sqrt( exp(1) - 1) = 6.184877s = sqrt( (exp(1)-1)*exp(1) ) = 2.1611972*s*qnorm(0.975)/sqrt(n) = 0.2678999kappa*s/(6*n) = 0.00222779kappa是无标度偏度,而约翰逊公式则处理未标度人口的第三中心矩),即CI宽度的1/100。你应该打扰吗?我会说,不。


2

尝试对数正态分布,计算:

  1. 数据的对数;
  2. (1)的均值和标准差
  3. 置信区间对应于(2)
  4. (3)的指数

您最终将在期望值(不是原始数据的均值)附近有一个不对称的置信区间。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.