我将更改有关问题的顺序。
我发现教科书和讲义经常不一致,并且希望有一个系统可以通过选择进行工作,可以安全地将其推荐为最佳实践,尤其是可以引用的教科书或论文。
不幸的是,书中对这个问题的一些讨论等等依赖于已获得的智慧。有时候,所接受的智慧是合理的,有时则不是那么合理(至少在某种意义上,当忽略了较大的问题时,它倾向于专注于较小的问题);我们应该仔细研究为建议提供的理由(如果有任何理由的话)。
选择t检验或非参数检验的大多数指南都将重点放在正态性问题上。
没错,但是由于我在此答案中提到的几个原因,这在某种程度上是误导的。
如果执行“无关样本”或“非配对” t检验,是否使用韦尔奇校正?
这(除非您有理由认为方差应该相等才使用它)是许多参考文献的建议。我在这个答案中指出了一些。
有些人使用假设检验来确定方差是否相等,但此处功效较低。通常,我只是看样本SD是否“合理地”接近(这是主观的,因此必须有一种更原则性的方法),但是,n较低时,很可能是总体SD距离更远除了样本。
除非有充分的理由相信总体方差相等,简单地对小样本始终使用Welch校正是否更安全?这就是建议。测试的属性受基于假设测试的选择的影响。
可以在这里和这里看到一些对此的参考,尽管还有更多类似的说法。
均方差问题与正态性问题具有许多相似的特征-人们想对其进行测试,建议建议根据测试结果对测试条件进行限制选择可能会对两种后续测试的结果产生不利影响-最好不要假设什么您无法充分说明理由(通过推理数据,使用其他研究中与相同变量相关的信息等等)。
但是,存在差异。一个是-至少就零假设下的检验统计量的分布而言(因此,其水平稳健性而言),非正态性在大型样本中的重要性较低(至少在显着性水平方面,尽管功效可能如果您需要发现较小的影响,仍然是一个问题),而在等方差假设下,不等方差的影响并不会随着样本数量的增加而消失。
当样本量为“小”时,可以建议哪种原则的方法选择最合适的测试?
对于假设检验,重要的是(在某些条件下)主要有两点:
我们还需要记住,如果我们要比较两个过程,则更改第一个过程将更改第二个过程(也就是说,如果它们未在相同的实际显着性水平下进行,则您希望更高的与更高的功率)。α
考虑到这些小样本问题,在确定t测试与非参数测试之间是否存在一个完善的清单(希望可以引用)进行检查?
我将考虑许多情况,在这些情况下,我将考虑非正态性和不均等方差的可能性。在每种情况下,请提及t检验以暗示Welch检验:
非正常(或未知),可能具有几乎相等的方差:
如果分布较重,使用Mann-Whitney通常会更好,但是如果分布稍重,则t检验应该可以。使用轻尾巴时,t测试(通常)是首选。排列测试是一个不错的选择(如果您愿意的话,甚至可以使用t统计量进行排列测试)。自举测试也适用。
非正常(或未知),不等方差(或方差关系未知):
如果分布是重尾的,那么使用Mann-Whitney通常会更好-如果方差不平等仅与均值不平等相关-即,如果H0为真,则也应不存在价差。GLM通常是一个不错的选择,尤其是当偏度和散度与均值相关时。置换测试是另一种选择,与基于等级的测试类似。引导测试在这里很有可能。
Zimmerman和Zumbo(1993)建议对等级进行Welch-t检验,在方差不相等的情况下,他们认为该等级的表现优于Wilcoxon-Mann-Whitney。[1]
如果您预计会出现非正常现象(同样要注意上述警告),则排名测试是合理的默认值。如果您具有有关形状或方差的外部信息,则可以考虑使用GLM。如果您希望事情与正常情况相距不远,则可以进行t检验。
由于获得合适的显着性水平存在问题,因此,排列检验和秩检验均不适用,并且在最小尺寸下,t检验可能是最佳选择(存在将其稍加加固的可能性)。但是,有一个很好的论据,即对较小的样本使用较高的I类错误率(否则,使I类错误率保持不变的同时使II类错误率膨胀)。另请参阅de Winter(2013)。[2]
当分布严重偏斜且非常离散时,必须对建议进行一些修改,例如,李克特量表项目,其中大多数观测值属于最终类别之一。然后,Wilcoxon-Mann-Whitney不一定是比t检验更好的选择。
当您掌握有关可能情况的一些信息时,模拟可以帮助进一步指导选择。
我很欣赏这是一个长期存在的话题,但是大多数问题都与提问者的特定数据集有关,有时是对权限的更一般性讨论,有时还涉及两个测试不一致的情况,但是我希望有一个程序从中选择正确的测试。第一名!
主要问题是在一个小的数据集中检查正态性假设有多么困难:
这是很难检查在小数据集常态,并在一定程度上这是一个重要的问题,但我认为是我们需要考虑的另一个重要问题。一个基本问题是,尝试评估正态性作为在多个测试之间进行选择的基础会对您选择的测试的性能产生不利影响。
任何正式的正常测试都将具有较低的功效,因此很可能无法检测到违规。(我个人不会为此目的进行测试,显然我并不孤单,但是当客户要求进行正常性测试时,我发现这种用处很少,因为那是他们的课本,旧的讲义或他们曾经找到的某个网站声明应该完成。这是值得欢迎的引文。
这是一个明确的参考示例(还有其他参考)(Fay和Proschan,2010):[3]
t-DR和WMW DR之间的选择不应基于正常性测试。
同样,他们对于不测试方差相等也很明确。
更糟糕的是,将中心极限定理用作安全网是不安全的:对于小n,我们不能依赖于检验统计量和t分布的方便渐近正态性。
即使在大样本中也不是-分子的渐近正态性并不意味着t统计量将具有t分布。但是,这无关紧要,因为您仍应具有渐近正态性(例如,分子的CLT和Slutsky定理建议,如果两个条件都成立,则最终t统计量应该看起来看起来正常。)
对此的一个原则响应是“安全第一”:由于无法可靠地验证小样本的正态性假设,因此请运行等效的非参数测试。
这实际上就是我提到的参考(或提及的链接)所提供的建议。
我见过但不太满意的另一种方法是执行视觉检查,如果未发现任何不良现象,则进行t检验(“没有理由拒绝正常性”,忽略了这种检查的低强度)。我个人的倾向是考虑是否有任何理由假设正常,理论上的(例如变量是几个随机成分之和,适用CLT)或经验上的(例如先前的研究,n较大表明变量是正常的)。
两者都是很好的论据,尤其是当以t检验对正态性的适度偏离具有合理的鲁棒性作为支持时。(不过,请记住,“中度偏差”是一个棘手的短语;某些偏离正常值的偏差可能会对t检验的功效产生相当大的影响,即使这些偏差在视觉上很小-t-测试对某些偏差的鲁棒性不如其他偏差。在讨论与正常值的细微偏差时,我们应牢记这一点。)
但是,请注意“建议变量正常”的表述。与常态合理地保持一致与常态不是一回事。我们经常甚至不需要查看数据就可以拒绝实际的正态性-例如,如果数据不能为负,则分布就不能为正态。幸运的是,重要的事情与我们从先前的研究或关于数据构成方式的推论中得出的结论更接近,即与正常值的偏差应很小。
如果是这样,如果数据通过了外观检查,我将使用t检验,否则会坚持使用非参数。但是,任何理论或经验基础通常仅能证明假设近似正态性是合理的,并且在低自由度下,很难判断避免t检验无效所需接近正态性。
嗯,这是我们可以很容易地评估其影响的东西(例如,正如我前面提到的那样,通过仿真)。从我所看到的情况来看,偏斜似乎比重尾巴更重要(但另一方面,我看到了相反的说法-尽管我不知道这是基于什么)。
对于那些认为方法选择是权能与鲁棒性之间折衷的人来说,声称非参数方法的渐近效率是无济于事的。例如,“如果数据确实正常,Wilcoxon测试具有t检验的95%的能力,如果数据不正常,Wilcoxon测试通常具有更强大的功能,因此仅使用Wilcoxon”是一个经验法则听说,但是如果95%仅适用于大n,则对于较小样本的推理是有缺陷的。
但是我们可以很容易地检查小样本功率!这是很容易模仿获得的功率曲线如下。
(再次,也请参见de Winter(2013))。[2]
在两样本和一样本/成对差异情况下,在各种情况下都进行了这样的模拟,两种情况下正常情况下的小样本效率似乎都比渐近效率低一点,但是效率即使在很小的样本量下,有符号秩和Wilcoxon-Mann-Whitney检验的比例仍然很高。
至少那是在相同的实际显着性水平下进行测试的情况;您不能对很小的样本进行5%的测试(例如,至少没有随机测试),但是如果您准备好做(比如说)5.5%或3.2%的测试,则进行排名测试与该显着性水平的t检验相比,确实可以很好地保持住。
小样本可能使评估转换是否适合该数据变得非常困难或不可能,因为很难分辨转换后的数据是否属于(足够)正态分布。因此,如果QQ图显示非常正偏的数据(在记录日志后看起来更合理),对记录的数据使用t检验是否安全?对于较大的样本,这将非常诱人,但是如果n很小,除非有理由期望对数正态分布首先是对数正态分布,否则我可能会推迟。
还有另一种选择:进行不同的参数假设。例如,如果存在偏斜的数据,例如,在某些情况下,可能会合理地考虑使用伽玛分布或其他偏斜的族作为更好的近似值-在中等大小的样本中,我们可能只使用GLM,但在非常小的样本中可能有必要进行小样本测试-在许多情况下,模拟可能会有用。
备选方案2:稳固t检验(但要注意稳健过程的选择,以免严重离散化检验统计量的结果分布)-与非常小样本的非参数过程相比,它具有一些优势,例如能力考虑低I型错误率的测试。
在这里,我正在考虑使用t统计量中的位置M估计量(以及相关的比例估计量)来平稳地抵制偏离正态性的思路。类似于Welch的东西,例如:
x∼−y∼S∼p
其中和,等分别是位置和规模的可靠估计。S∼2p=s∼2xnx+s∼2ynyx∼s∼x
我的目标是减少统计数据趋于离散的任何趋势-因此,我将避免诸如修整和Winsorizing之类的事情,因为如果原始数据是离散的,修整等会加剧这种情况。通过使用具有平滑函数的M估计类型方法,您可以获得类似的效果,而不会造成离散。请记住,我们正在尝试处理确实很小的的情况(例如,每个样本中约为3-5),因此即使M估计也可能有问题。ψn
例如,您可以在法线处使用模拟来获取p值(如果样本量很小,我建议过度自举-如果样本量不是那么小,精心实施的引导程序可能会做得很好,但我们不妨再回到Wilcoxon-Mann-Whitney)。有一个比例因子和一个df调整,以达到我想象的合理的t近似。这意味着我们应该获得我们所寻求的非常接近于法线的属性,并且应该在法线的较宽范围内具有合理的鲁棒性。有许多问题超出了当前问题的范围,但是我认为在很小的样本中,收益应该超过成本和所需的额外努力。
[我已经很长时间没有阅读有关该材料的文献了,所以我在该分数上没有合适的参考资料。]
当然,如果您不期望分布有点像正态分布,而是与其他分布相似,则可以对其他参数测试进行适当的加固。
如果要检查非参数的假设怎么办?一些资料来源建议在应用Wilcoxon检验之前验证对称分布,这会带来与检查正态性相似的问题。
确实。我认为您的意思是签名等级测试*。在将其用于配对数据的情况下,如果准备假定两个分布除了位置偏移外都是相同的形状,那么您会很安全,因为差异应该是对称的。实际上,我们甚至不需要那么多。为了使测试正常进行,您需要在null下保持对称;在替代方案中不是必需的(例如,考虑在正半线上具有相同形状的右偏连续分布的配对情况,其中比例在替代方案下有所不同,但在零值以下则没有;有符号秩检验应基本上按照预期在这种情况)。如果替代方法是位置转换,则测试的解释会更容易。
*(Wilcoxon的名称与一个和两个样本秩检验(有符号秩和秩和都相关; Mann和Whitney的U检验概括了Wilcoxon研究的情况,并引入了评估零分布的重要新思想,但是Wilcoxon-Mann-Whitney的两组作者之间的优先级显然是Wilcoxon的-因此,至少如果仅考虑Wilcoxon与Mann&Whitney,Wilcoxon在我的书中排在第一位,但是似乎斯蒂格勒定律再次击败了我,Wilcoxon也许应该与许多早期的贡献者共享一些优先级,并且(除了曼恩和惠特尼)应该与同等测试的几个发现者共享信用。[4] [5])
参考文献
[1]:Zimmerman DW和Zumbo BN,(1993年),
对非正常人群的Rank转换和Student t检验和Welch t'检验的功效,
加拿大实验心理学杂志,47:523–39。
[2]:JCF de Winter(2013),
“使用学生的t检验使用极小的样本量”,《
实践评估,研究与评估》, 18月10日,八月,ISSN 1531-7714,http://pareonline.net/
getvn.asp?v = 18&n = 10
[3]:Michael P. Fay和Michael A. Proschan(2010),
“ Wilcoxon-Mann-Whitney或t检验?关于假设检验和决策规则的多种解释的假设”,
Stat Surv;4:1–39。
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/
[4]:Berry,KJ,Mielke,PW和Johnston,JE(2012),
“两次抽样秩和检验:早期发展”,《
概率统计统计电子杂志》,第8卷,12月
pdf
[5]:采用Kruskal,WH(1957),
“ 关于未配对的Wilcoxon双样本检验历史笔记”
杂志美国统计协会,52,356-360。