当N> 50时,T检验是否为非正常?


Answers:


82

t检验的正态假设

考虑大量人口,您可以从中抽取许多特定大小的样本。(在特定研究中,您通常只收集其中一个样本。)

t检验假设不同样本的均值呈正态分布;它不假定总体是正态分布的。

通过中心极限定理,来自具有有限方差的总体的样本均值接近正态分布,而与总体的分布无关。经验法则表明,只要样本大小至少为20或30,样本均值就基本上呈正态分布。为了使t检验对较小规模的样本有效,总体分布必须近似于正态。

t检验对非正态分布的小样本无效,但对非正态分布的大样本有效。

来自非正态分布的小样本

正如迈克尔在下面指出的那样,均值分布接近正态性所需的样本量取决于总体的非正态程度。对于近似正态分布,您将不需要非常非正态分布的样本。

这是一些您可以在R中运行的模拟以了解这一点。首先,这是几个人口分布。

curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom

接下来是人口分布样本的一些模拟。在每行中,“ 10”是样本数量,“ 100”是样本数量,其后的函数指定总体分布。他们产生样本均值的直方图。

hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

为了使t检验有效,这些直方图应该是正常的。

require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

t检验的效用

我必须指出,我刚刚传授的所有知识都已过时;现在我们有了计算机,我们可以做得比t检验更好。正如弗兰克指出的那样,您可能想在被教进行t 检验的任何地方使用Wilcoxon检验。


7
很好的解释(+1)。但是,我要补充一点,分配均值以近似正态性所需的样本数量取决于总体的非正态性程度。对于大样本,没有理由不对分布进行任何假设的t检验胜过排列检验。
Michael Lew

2
尽管据我所知,+ 1是t检验,可以抵抗正常值的中等偏差。此外,还有一个有趣的相关讨论:stats.stackexchange.com/questions/2492/…–
nico

4
一个很好的答案,尽管您遗漏了一个小细节:数据的分布必须具有有限的方差。T检验对于比较两个柯西分布的位置(或具有2个自由度的学生)的位置差异没有希望,不是因为它不是“非稳健的”,而是因为对于这些分布,样本中除了均值之外还有其他相关信息和t检验丢掉的标准差。
概率

2
除此之外,t检验还自然得出了所研究参数的置信区间。(由于第二段直接解决了问题,所以仍然投票,我只是强烈反对第三段)
Erik

6
t检验确实需要人群的正常性。这是t统计量具有t学生分布的假设。如果您没有正态总体,则无法将t统计量表示为标准正态变量除以卡方变量的根除以其自由度。也许您要说的是,如果某些条件是正确的,例如不存在太大的偏斜或样本过多,则即使总体不正常,该检验仍然有效。
toneloy '16

44

中心极限定理在这种情况下没有人想象的有用。首先,正如某人已经指出的那样,人们不知道当前的样本量是否“足够大”。其次,CLT不仅仅是实现所需的I型错误,还在于II型错误。换句话说,t检验可能是非竞争性的。这就是Wilcoxon测试如此受欢迎的原因。如果保持正常,则其效率是t检验的95%。如果不满足常态,则可以比t检验任意有效。


7
(+1)欢迎来到我们的网站,很高兴您找到了该网站。我期待着您的参与。
主教

4
(+1)关于Wilcoxon的观点。
whuber

18

请参阅我之前对t检验鲁棒性问题的回答。

特别是,我建议您使用onlinestatsbook applet

下图基于以下场景:

  • 原假设为真
  • 严重偏斜
  • 两组中的分布相同
  • 两组的方差相同
  • 每组5个样本量(即每个问题少于50个)
  • 我按了10,000个模拟按钮约100次,以获取多达一百万个模拟。

获得的模拟表明,我没有得到5%的Type I错误,而是得到了4.5%的Type I错误。

您是否认为这种功能强大取决于您的观点。

在此处输入图片说明


4
+1好点。该电源的t检验偏斜的替代品,虽然可以降低严重(就在哪里点基本为零甚至为巨大的影响大小)。
whuber

6

h=0.24999

p=1041p

编辑:duh,根据评论中@whuber的捕获,我给出的示例没有均值零,因此测试均值零与I等级无关。

由于彩票示例的样本标准偏差通常为零,因此t检验扼流圈。因此,我给出一个使用Goerg的Lambert W x高斯分布的代码示例。我在这里使用的分布有大约1355的偏差。

#hey look! I'm learning R!
library(LambertW)

Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)

test_ttest <- function(sampsize) {
    samp <- LW.Gauss$rY(params)(n=sampsize)
    tval <- t.test(samp, mu = moms$mean)
    return(tval$p.value)
}

#to replicate randomness
set.seed(1)

pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

p    vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

对于不同的样本量,此代码给出了名义上0.05级的经验剔除率。对于大小为50的样本,经验率为0.40(!);样本数量250,0.29; 样本数量1000为0.21; 对于2000样本量,0.18。显然,单样本t检验存在偏差。


p=0

1

中心极限定理确定(在所需条件下)t统计量的分子是渐近正态的。t统计量也有一个分母。要获得t分布,您需要分母是独立的,并且在其df上是一个chi平方的平方根。

而且我们知道它不会独立(这是正常现象的特征!)

Slutsky定理与CLT的组合将为您提供t统计量是渐近正态的(但不一定是非常有用的速率)。

什么定理可以确定当存在非正态性时,t统计量近似为t分布,以及它出现的速度如何?(当然,最终t-也将接近于法线,但是我们假设近似于另一种近似将比仅使用法线近似更好。)


t

n


3
xi+xjxixjcov(xi+xj,xixj)=var(xi)var(xj)+cov(xi,xj)cov(xj,xi)=0var(xi)=var(xj)

1
不幸的是,如果要以t分布结尾,则不相关和独立之间的区别是相关的。
Glen_b 2014年

0

是的,中心极限定理告诉我们这是真的。只要避免极端的特征,非正态性在中到大样本中都不会出现问题。

这是一篇有用的评论文章;

http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546

当替代方案不是原始分布的位置偏移时,Wilcoxon检验(其他人提到的)可能会产生可怕的影响。此外,它测量分布之间差异的方法不是可传递的。


关于Wilcoxon的有趣观点。但是,t检验也有类似的困难:特别是在检测伴随方差增加而产生的变化时特别不利。在当前情况下,关于传递性的问题似乎主要是出于好奇。很难看到它与原始假设检验或它的解释之间的关系。(但在ANOVA或多重比较设置中,不及物性可能变得很重要。)
whuber

不等方差t检验(某些软件中的默认设置)不存在异方差问题。
来宾

关于传递性;报告样本均值或均值差异(使用t检验方法很自然)为读者提供了从其他总体抽样时可以考虑的内容。Wilcoxon测试的非传递性意味着这种方法没有这样的类似方法。使用数据等级是一种非常有限的方法。
来宾

1
(1)Satterthwaite-Welch(方差均等)测试无法克服我所提到的功率损耗(尽管可以有所帮助)。(2)我认为您在使用“有限”等级来刻画人物时过分极端。@Frank Harrell在他的回复中指的是研究,表明Wilcoxon检验如何在许多情况下保持较高的效率:与t检验相比,这表明使用等级不仅有效,而且更加灵活,而不是更加局限。
豪伯

(1)否,但是在中到大样本中,它给出了正确的I型错误率(2)谢谢,但是我很不同意。在Wilcoxon上使用t检验可以更轻松地弥合测试与使用置信区间之间的差距。如果一个人只想进行测试,并且从不希望超出研究的两个范围,那么Wilcoxon当然会遇到很好的情况。但是通常我们不想仅仅进行测试,而是希望帮助用户将结果推广到其他情况。那么Wilcoxon检验将无济于事。
来宾

0

关于使用Wilcoxon-Mann-Whitney检验作为替代方案,我推荐论文Wilcoxon-Man-Whitney检验

作为均值或中位数的检验,Wilcoxon–Mann–Whitney(WMW)检验对于与纯漂移模型的偏差可能非常不可靠。

这些是本文作者的建议:

秩变换可以不同地改变两个样本的均值,标准偏差和偏度。只有在分布相同且样本大小相等的情况下,才能保证秩变换可以达到有益的效果。对于与这些相当严格的假设的偏离,秩变换对样本矩的影响是不可预测的。在本文的模拟研究中,将WMW测试与Fligner–Policello测试(FP),Brunner–Munzel测试(BM),两次样本T测试(T),Welch U测试(U),以及Welch U等级考试(RU)。四个基于等级的测试(WMW,FP,BM和RU)的性能相似,尽管BM测试通常比其他测试好一些。当样本数量相等时 在相等均值的零假设下,参数检验(T和U)优于基于秩的检验,但在中位数相等的零假设下,参数检验(T和U)优于基于等级的检验。当样本大小不相等时,BM,RU和U测试效果最佳。对于某些设置,总体属性的微小变化会导致测试性能发生较大变化。总之,除非两个分布具有相同的形状和相同的比例,否则大样本近似WMW检验对于比较两个总体的均值或中位数可能是一种较差的方法。这个问题似乎在不同程度上也适用于确切的WMW测试,FP测试,BM测试和Welch U测试。当使用WMW检验时,作者建议彻底研究排名样本的性质,以发现偏斜和方差异质性的迹象。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.