Answers:
t检验的正态假设
考虑大量人口,您可以从中抽取许多特定大小的样本。(在特定研究中,您通常只收集其中一个样本。)
t检验假设不同样本的均值呈正态分布;它不假定总体是正态分布的。
通过中心极限定理,来自具有有限方差的总体的样本均值接近正态分布,而与总体的分布无关。经验法则表明,只要样本大小至少为20或30,样本均值就基本上呈正态分布。为了使t检验对较小规模的样本有效,总体分布必须近似于正态。
t检验对非正态分布的小样本无效,但对非正态分布的大样本有效。
来自非正态分布的小样本
正如迈克尔在下面指出的那样,均值分布接近正态性所需的样本量取决于总体的非正态程度。对于近似正态分布,您将不需要非常非正态分布的样本。
这是一些您可以在R中运行的模拟以了解这一点。首先,这是几个人口分布。
curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom
接下来是人口分布样本的一些模拟。在每行中,“ 10”是样本数量,“ 100”是样本数量,其后的函数指定总体分布。他们产生样本均值的直方图。
hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')
为了使t检验有效,这些直方图应该是正常的。
require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')
t检验的效用
我必须指出,我刚刚传授的所有知识都已过时;现在我们有了计算机,我们可以做得比t检验更好。正如弗兰克指出的那样,您可能想在被教进行t 检验的任何地方使用Wilcoxon检验。
编辑:duh,根据评论中@whuber的捕获,我给出的示例没有均值零,因此测试均值零与I等级无关。
由于彩票示例的样本标准偏差通常为零,因此t检验扼流圈。因此,我给出一个使用Goerg的Lambert W x高斯分布的代码示例。我在这里使用的分布有大约1355的偏差。
#hey look! I'm learning R!
library(LambertW)
Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)
test_ttest <- function(sampsize) {
samp <- LW.Gauss$rY(params)(n=sampsize)
tval <- t.test(samp, mu = moms$mean)
return(tval$p.value)
}
#to replicate randomness
set.seed(1)
pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
p vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
对于不同的样本量,此代码给出了名义上0.05级的经验剔除率。对于大小为50的样本,经验率为0.40(!);样本数量250,0.29; 样本数量1000为0.21; 对于2000样本量,0.18。显然,单样本t检验存在偏差。
中心极限定理确定(在所需条件下)t统计量的分子是渐近正态的。t统计量也有一个分母。要获得t分布,您需要分母是独立的,并且在其df上是一个chi平方的平方根。
而且我们知道它不会独立(这是正常现象的特征!)
Slutsky定理与CLT的组合将为您提供t统计量是渐近正态的(但不一定是非常有用的速率)。
什么定理可以确定当存在非正态性时,t统计量近似为t分布,以及它出现的速度如何?(当然,最终t-也将接近于法线,但是我们假设近似于另一种近似将比仅使用法线近似更好。)
是的,中心极限定理告诉我们这是真的。只要避免极端的特征,非正态性在中到大样本中都不会出现问题。
这是一篇有用的评论文章;
http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546
当替代方案不是原始分布的位置偏移时,Wilcoxon检验(其他人提到的)可能会产生可怕的影响。此外,它测量分布之间差异的方法不是可传递的。
关于使用Wilcoxon-Mann-Whitney检验作为替代方案,我推荐论文Wilcoxon-Man-Whitney检验
作为均值或中位数的检验,Wilcoxon–Mann–Whitney(WMW)检验对于与纯漂移模型的偏差可能非常不可靠。
这些是本文作者的建议:
秩变换可以不同地改变两个样本的均值,标准偏差和偏度。只有在分布相同且样本大小相等的情况下,才能保证秩变换可以达到有益的效果。对于与这些相当严格的假设的偏离,秩变换对样本矩的影响是不可预测的。在本文的模拟研究中,将WMW测试与Fligner–Policello测试(FP),Brunner–Munzel测试(BM),两次样本T测试(T),Welch U测试(U),以及Welch U等级考试(RU)。四个基于等级的测试(WMW,FP,BM和RU)的性能相似,尽管BM测试通常比其他测试好一些。当样本数量相等时 在相等均值的零假设下,参数检验(T和U)优于基于秩的检验,但在中位数相等的零假设下,参数检验(T和U)优于基于等级的检验。当样本大小不相等时,BM,RU和U测试效果最佳。对于某些设置,总体属性的微小变化会导致测试性能发生较大变化。总之,除非两个分布具有相同的形状和相同的比例,否则大样本近似WMW检验对于比较两个总体的均值或中位数可能是一种较差的方法。这个问题似乎在不同程度上也适用于确切的WMW测试,FP测试,BM测试和Welch U测试。当使用WMW检验时,作者建议彻底研究排名样本的性质,以发现偏斜和方差异质性的迹象。