Answers:
数据的分布不必是正态的,而是采样分布必须接近正态。如果样本量足够大,则由于中心极限定理,来自Landau分布的均值的采样分布应接近正态。
因此,这意味着您应该能够安全地对数据进行t检验。
让我们考虑这个示例:假设我们有一个人口,对数分布为mu = 0,sd = 0.5(看上去与Landau有点相似)
因此,我们每次计算样本均值时,从此分布中采样30次观察5000次
这就是我们得到的
看起来很正常,不是吗?如果我们增加样本量,则更加明显
x = seq(0, 4, 0.05)
y = dlnorm(x, mean=0, sd=0.5)
plot(x, y, type='l', bty='n')
n = 30
m = 1000
set.seed(0)
samp = rep(NA, m)
for (i in 1:m) {
samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}
hist(samp, col='orange', probability=T, breaks=25, main='sample size = 30')
x = seq(0.5, 1.5, 0.01)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))
n = 300
samp = rep(NA, m)
for (i in 1:m) {
samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}
hist(samp, col='orange', probability=T, breaks=25, main='sample size = 300')
x = seq(1, 1.25, 0.005)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))