如何在t检验或非参数检验之间进行选择,例如小样本中的Wilcoxon


96

某些假设可以通过学生t检验(可能在两样本案例中使用Welch的不等方差校正)进行检验,也可以通过非参数检验(例如Wilcoxon配对符号秩检验,Wilcoxon-Mann-Whitney U检验,或配对符号测试。我们如何就最适合的测试做出有原则的决定,尤其是在样本量很小的情况下?

许多介绍性教科书和讲义提供了一种“流程图”方法,在此方法中检查正态性(不建议(通过正态性检验,或更广泛地通过QQ图或类似方法))以在t检验或非参数检验之间做出决定。对于不成对的两样本t检验,可以进一步检查方差的均匀性,以决定是否应用韦尔奇校正。这种方法的一个问题是,决定采用哪种测试的方式取决于所观察的数据,以及这如何影响所选测试的性能(功率,I类错误率)。

另一个问题是很难检查小数据集中的正态性:正式测试的能力很低,因此很可能无法检测到违规,但是类似的问题也适用于将数据放在QQ图上。即使是严重的违规行为也可能无法发现,例如,如果分布是混合的,但没有从混合物的一种成分中获得观察结果。与大不同,我们不能依靠中心极限定理的安全网以及检验统计量和t分布的渐近正态性。n

对此的一个原则响应是“安全第一”:无法可靠地验证小样本中的正态性假设,请坚持使用非参数方法。另一个是考虑任何假设正常的理由,从理论上(例如变量是几个随机分量的总和,应用CLT)或凭经验(例如以前的研究,值较大表明变量是正常的),并且仅在存在此类理由的情况下使用t检验。但这通常只能证明近似正态性是正确的,在自由度较低的情况下,很难判断避免使t检验无效所需接近正态性。n

选择t检验或非参数检验的大多数指南都将重点放在正态性问题上。但是少量样本也会引发一些附带问题:

  • 如果执行“无关样本”或“非配对” t检验,是否要使用Welch校正?有些人使用假设检验来检验方差是否相等,但是这里的功效较低。其他人则根据各种标准检查SD是否“合理地”关闭。除非有充分的理由相信总体方差相等,简单地对小样本始终使用Welch校正是否更安全?

  • 如果您将方法的选择视为权能与鲁棒性之间的折衷,那么关于非参数方法的渐近效率的主张将无济于事。根据经验,有时会听到“ 如果数据确实正常Wilcoxon测试具有t检验的95%的能力,如果数据不正常,则通常功能要强大得多,因此只使用Wilcoxon”,但是如果95%仅适用于大,则对于较小的样本,这是有缺陷的推理。n

  • 小样本可能使评估转换是否适合该数据变得非常困难或不可能,因为很难分辨转换后的数据是否属于(足够)正态分布。因此,如果QQ图显示非常正偏的数据(在记录日志后看起来更合理),对记录的数据进行t检验是否安全?对于较大的样本,这将非常诱人,但是如果很小,除非可能有理由期望对数正态分布首先是对数正态分布,否则我可能会推迟。n

  • 如何检查非参数的假设? 一些消息来源建议在应用Wilcoxon检验(将其作为位置而不是随机优势的检验)之前,先验证对称分布,这在检查正态性方面会带来类似的问题。如果我们首先使用非参数测试的原因是对“安全第一”的口号的盲从,那么从少量样本评估偏斜度的困难显然会导致我们降低配对符号测试的功效。

考虑到这些小样本问题,在确定t测试与非参数测试之间是否有一个良好的过程(希望可以引用)?

有几个很好的答案,但是也欢迎考虑使用其他替代等级测试的答案,例如置换测试。


2
我应该解释一下“选择测试的方法”可能是什么-介绍性文本经常使用流程图。对于不成对的数据,可能是:“ 1.使用某种方法检查两个样本是否均呈正态分布(如果不是,则转到3),2.使用某种方法检查不均等方差:如果是,则执行两样本t检验如果不进行Welch校正,则不做校正。3.尝试将数据转换为正态(如果进行2,否则进行4)。4.进行U检验(可能在检查了各种假设之后)。” 但是,对于小n来说,许多步骤似乎都不令人满意,正如我希望我的Q解释的那样!
Silverfish

2
有趣的问题(+1)和勇敢的举动设立了赏金。期待一些有趣的答案。顺便说一句,我经常在我的领域中看到的是置换检验(而不是t检验或Mann-Whitney-Wilcoxon)。我想它也可以被认为是一个有竞争力的竞争者。除此之外,你从来没有指定什么,你的“小样本”的意思。
amoeba 2014年

1
@Alexis许多书声称Wilcoxon检验假设中间值对称,至少在结果被视为关于位置的陈述的情况下(一些建议使用箱形图进行检查:请参阅上面我与Glen的讨论/ Frank Harrell的答案,以了解多步危险)程序)。也有消息来源指出,Wilcoxon-Mann-Whitney U假设小组分布仅因翻译而不同(并建议对直方图或经验CDF进行目视检查)。一个信号。即使中位数相等,U检验也可能是由于形状分布不同所致。另请参见在弗兰克·哈雷尔(Frank Harrell)的回答下的评论中引用的论文。
Silverfish

3
@Silverfish“如果将结果视为关于位置的陈述”,这是一个重要的警告,因为这些测试通常是关于H证据的陈述。进行其他分布假设会缩小推断范围(例如中位数差异检验),但通常不是检验的必要条件。0:P(XA>XB)=0.5
2014年

2
可能有必要探讨“ Wilcoxon的95%功效”推理对小样本有多“瑕疵”(部分取决于确切地做什么以及小有多小)。例如,如果您乐于以5.5%(而不是5%)的价格进行测试,那么如果该水平是最接近的合适可达到的显着性水平,则功效往往会保持得很好。当然可以,在收集数据之前的“功率计算”阶段,弄清楚情况可能是什么,并可以根据您正在考虑的样本数量了解Wilcoxon的特性。
Glen_b

Answers:


67

我将更改有关问题的顺序。

我发现教科书和讲义经常不一致,并且希望有一个系统可以通过选择进行工作,可以安全地将其推荐为最佳实践,尤其是可以引用的教科书或论文。

不幸的是,书中对这个问题的一些讨论等等依赖于已获得的智慧。有时候,所接受的智慧是合理的,有时则不是那么合理(至少在某种意义上,当忽略了较大的问题时,它倾向于专注于较小的问题);我们应该仔细研究为建议提供的理由(如果有任何理由的话)。

选择t检验或非参数检验的大多数指南都将重点放在正态性问题上。

没错,但是由于我在此答案中提到的几个原因,这在某种程度上是误导的。

如果执行“无关样本”或“非配对” t检验,是否使用韦尔奇校正?

这(除非您有理由认为方差应该相等才使用它)是许多参考文献的建议。我在这个答案中指出了一些。

有些人使用假设检验来确定方差是否相等,但此处功效较低。通常,我只是看样本SD是否“合理地”接近(这是主观的,因此必须有一种更原则性的方法),但是,n较低时,很可能是总体SD距离更远除了样本。

除非有充分的理由相信总体方差相等,简单地对小样本始终使用Welch校正是否更安全?这就是建议。测试的属性受基于假设测试的选择的影响。

可以在这里这里看到一些对此的参考,尽管还有更多类似的说法。

均方差问题与正态性问题具有许多相似的特征-人们想对其进行测试,建议建议根据测试结果对测试条件进行限制选择可能会对两种后续测试的结果产生不利影响-最好不要假设什么您无法充分说明理由(通过推理数据,使用其他研究中与相同变量相关的信息等等)。

但是,存在差异。一个是-至少就零假设下的检验统计量的分布而言(因此,其水平稳健性而言),非正态性在大型样本中的重要性较低(至少在显着性水平方面,尽管功效可能如果您需要发现较小的影响,仍然是一个问题),而在等方差假设下,不等方差的影响并不会随着样本数量的增加而消失。

当样本量为“小”时,可以建议哪种原则的方法选择最合适的测试?

对于假设检验,重要的是(在某些条件下)主要有两点:

  • 实际的I型错误率是多少?

  • 权力行为是什么样的?

我们还需要记住,如果我们要比较两个过程,则更改第一个过程将更改第二个过程(也就是说,如果它们未在相同的实际显着性水平下进行,则您希望更高的与更高的功率)。α

考虑到这些小样本问题,在确定t测试与非参数测试之间是否存在一个完善的清单(希望可以引用)进行检查?

我将考虑许多情况,在这些情况下,我将考虑非正态性和不均等方差的可能性。在每种情况下,请提及t检验以暗示Welch检验:

  • n中大型

非正常(或未知),可能具有几乎相等的方差:

如果分布较重,使用Mann-Whitney通常会更好,但是如果分布稍重,则t检验应该可以。使用轻尾巴时,t测试(通常)是首选。排列测试是一个不错的选择(如果您愿意的话,甚至可以使用t统计量进行排列测试)。自举测试也适用。

非正常(或未知),不等方差(或方差关系未知):

如果分布是重尾的,那么使用Mann-Whitney通常会更好-如果方差不平等仅与均值不平等相关-即,如果H0为真,则也应不存在价差。GLM通常是一个不错的选择,尤其是当偏度和散度与均值相关时。置换测试是另一种选择,与基于等级的测试类似。引导测试在这里很有可能。

Zimmerman和Zumbo(1993)建议对等级进行Welch-t检验,在方差不相等的情况下,他们认为该等级的表现优于Wilcoxon-Mann-Whitney。[1]

  • n中等小

如果您预计会出现非正常现象(同样要注意上述警告),则排名测试是合理的默认值。如果您具有有关形状或方差的外部信息,则可以考虑使用GLM。如果您希望事情与正常情况相距不远,则可以进行t检验。

  • n非常小

由于获得合适的显着性水平存在问题,因此,排列检验和秩检验均不适用,并且在最小尺寸下,t检验可能是最佳选择(存在将其稍加加固的可能性)。但是,有一个很好的论据,即对较小的样本使用较高的I类错误率(否则,使I类错误率保持不变的同时使II类错误率膨胀)。另请参阅de Winter(2013)。[2]

当分布严重偏斜且非常离散时,必须对建议进行一些修改,例如,李克特量表项目,其中大多数观测值属于最终类别之一。然后,Wilcoxon-Mann-Whitney不一定是比t检验更好的选择。

当您掌握有关可能情况的一些信息时,模拟可以帮助进一步指导选择。

我很欣赏这是一个长期存在的话题,但是大多数问题都与提问者的特定数据集有关,有时是对权限的更一般性讨论,有时还涉及两个测试不一致的情况,但是我希望有一个程序从中选择正确的测试。第一名!

主要问题是在一个小的数据集中检查正态性假设有多么困难:

很难检查在小数据集常态,并在一定程度上这是一个重要的问题,但我认为是我们需要考虑的另一个重要问题。一个基本问题是,尝试评估正态性作为在多个测试之间进行选择的基础会对您选择的测试的性能产生不利影响。

任何正式的正常测试都将具有较低的功效,因此很可能无法检测到违规。(我个人不会为此目的进行测试,显然我并不孤单,但是当客户要求进行正常性测试时,我发现这种用处很少,因为那是他们的课本,旧的讲义或他们曾经找到的某个网站声明应该完成。这是值得欢迎的引文。

这是一个明确的参考示例(还有其他参考)(Fay和Proschan,2010):[3]

t-DR和WMW DR之间的选择不应基于正常性测试。

同样,他们对于不测试方差相等也很明确。

更糟糕的是,将中心极限定理用作安全网是不安全的:对于小n,我们不能依赖于检验统计量和t分布的方便渐近正态性。

即使在大样本中也不是-分子的渐近正态性并不意味着t统计量将具有t分布。但是,这无关紧要,因为您仍应具有渐近正态性(例如,分子的CLT和Slutsky定理建议,如果两个条件都成立,则最终t统计量应该看起来看起来正常。)

对此的一个原则响应是“安全第一”:由于无法可靠地验证小样本的正态性假设,因此请运行等效的非参数测试。

这实际上就是我提到的参考(或提及的链接)所提供的建议。

我见过但不太满意的另一种方法是执行视觉检查,如果未发现任何不良现象,则进行t检验(“没有理由拒绝正常性”,忽略了这种检查的低强度)。我个人的倾向是考虑是否有任何理由假设正常,理论上的(例如变量是几个随机成分之和,适用CLT)或经验上的(例如先前的研究,n较大表明变量是正常的)。

两者都是很好的论据,尤其是当以t检验对正态性的适度偏离具有合理的鲁棒性作为支持时。(不过,请记住,“中度偏差”是一个棘手的短语;某些偏离正常值的偏差可能会对t检验的功效产生相当大的影响,即使这些偏差在视觉上很小-t-测试对某些偏差的鲁棒性不如其他偏差。在讨论与正常值的细微偏差时,我们应牢记这一点。)

但是,请注意“建议变量正常”的表述。与常态合理地保持一致与常态不是一回事。我们经常甚至不需要查看数据就可以拒绝实际的正态性-例如,如果数据不能为负,则分布就不能为​​正态。幸运的是,重要的事情与我们从先前的研究或关于数据构成方式的推论中得出的结论更接近,即与正常值的偏差应很小。

如果是这样,如果数据通过了外观检查,我将使用t检验,否则会坚持使用非参数。但是,任何理论或经验基础通常仅能证明假设近似正态性是合理的,并且在低自由度下,很难判断避免t检验无效所需接近正态性。

嗯,这是我们可以很容易地评估其影响的东西(例如,正如我前面提到的那样,通过仿真)。从我所看到的情况来看,偏斜似乎比重尾巴更重要(但另一方面,我看到了相反的说法-尽管我不知道这是基于什么)。

对于那些认为方法选择是权能与鲁棒性之间折衷的人来说,声称非参数方法的渐近效率是无济于事的。例如,“如果数据确实正常,Wilcoxon测试具有t检验的95%的能力,如果数据不正常,Wilcoxon测试通常具有更强大的功能,因此仅使用Wilcoxon”是一个经验法则听说,但是如果95%仅适用于大n,则对于较小样本的推理是有缺陷的。

但是我们可以很容易地检查小样本功率!这是很容易模仿获得的功率曲线如下
(再次,也请参见de Winter(2013))。[2]

在两样本和一样本/成对差异情况下,在各种情况下都进行了这样的模拟,两种情况下正常情况下的小样本效率似乎都比渐近效率低一点,但是效率即使在很小的样本量下,有符号秩和Wilcoxon-Mann-Whitney检验的比例仍然很高。

至少那是在相同的实际显着性水平下进行测试的情况;您不能对很小的样本进行5%的测试(例如,至少没有随机测试),但是如果您准备好做(比如说)5.5%或3.2%的测试,则进行排名测试与该显着性水平的t检验相比,确实可以很好地保持住。

小样本可能使评估转换是否适合该数据变得非常困难或不可能,因为很难分辨转换后的数据是否属于(足够)正态分布。因此,如果QQ图显示非常正偏的数据(在记录日志后看起来更合理),对记录的数据使用t检验是否安全?对于较大的样本,这将非常诱人,但是如果n很小,除非有理由期望对数正态分布首先是对数正态分布,否则我可能会推迟。

还有另一种选择:进行不同的参数假设。例如,如果存在偏斜的数据,例如,在某些情况下,可能会合理地考虑使用伽玛分布或其他偏斜的族作为更好的近似值-在中等大小的样本中,我们可能只使用GLM,但在非常小的样本中可能有必要进行小样本测试-在许多情况下,模拟可能会有用。

备选方案2:稳固t检验(但要注意稳健过程的选择,以免严重离散化检验统计量的结果分布)-与非常小样本的非参数过程相比,它具有一些优势,例如能力考虑低I型错误率的测试。

在这里,我正在考虑使用t统计量中的位置M估计量(以及相关的比例估计量)来平稳地抵制偏离正态性的思路。类似于Welch的东西,例如:

xySp

其中和,等分别是位置和规模的可靠估计。Sp2=sx2nx+sy2nyxsx

我的目标是减少统计数据趋于离散的任何趋势-因此,我将避免诸如修整和Winsorizing之类的事情,因为如果原始数据是离散的,修整等会加剧这种情况。通过使用具有平滑函数的M估计类型方法,您可以获得类似的效果,而不会造成离散。请记住,我们正在尝试处理确实很小的的情况(例如,每个样本中约为3-5),因此即使M估计也可能有问题。ψn

例如,您可以在法线处使用模拟来获取p值(如果样本量很小,我建议过度自举-如果样本量不是那么小,精心实施的引导程序可能会做得很好,但我们不妨再回到Wilcoxon-Mann-Whitney)。有一个比例因子和一个df调整,以达到我想象的合理的t近似。这意味着我们应该获得我们所寻求的非常接近于法线的属性,并且应该在法线的较宽范围内具有合理的鲁棒性。有许多问题超出了当前问题的范围,但是我认为在很小的样本中,收益应该超过成本和所需的额外努力。

[我已经很长时间没有阅读有关该材料的文献了,所以我在该分数上没有合适的参考资料。]

当然,如果您不期望分布有点像正态分布,而是与其他分布相似,则可以对其他参数测试进行适当的加固。

如果要检查非参数的假设怎么办?一些资料来源建议在应用Wilcoxon检验之前验证对称分布,这会带来与检查正态性相似的问题。

确实。我认为您的意思是签名等级测试*。在将其用于配对数据的情况下,如果准备假定两个分布除了位置偏移外都是相同的形状,那么您会很安全,因为差异应该是对称的。实际上,我们甚至不需要那么多。为了使测试正常进行,您需要在null下保持对称;在替代方案中不是必需的(例如,考虑在正半线上具有相同形状的右偏连续分布的配对情况,其中比例在替代方案下有所不同,但在零值以下则没有;有符号秩检验应基本上按照预期在这种情况)。如果替代方法是位置转换,则测试的解释会更容易。

*(Wilcoxon的名称与一个和两个样本秩检验(有符号秩和秩和都相关; Mann和Whitney的U检验概括了Wilcoxon研究的情况,并引入了评估零分布的重要新思想,但是Wilcoxon-Mann-Whitney的两组作者之间的优先级显然是Wilcoxon的-因此,至少如果仅考虑Wilcoxon与Mann&Whitney,Wilcoxon在我的书中排在第一位,但是似乎斯蒂格勒定律再次击败了我,Wilcoxon也许应该与许多早期的贡献者共享一些优先级,并且(除了曼恩和惠特尼)应该与同等测试的几个发现者共享信用。[4] [5])

参考文献

[1]:Zimmerman DW和Zumbo BN,(1993年),
对非正常人群的Rank转换和Student t检验和Welch t'检验的功效
加拿大实验心理学杂志,47:523–39。

[2]:JCF de Winter(2013),
“使用学生的t检验使用极小的样本量”,《
实践评估,研究与评估》18月10日,八月,ISSN 1531-7714,http://pareonline.net/
getvn.asp?v = 18&n = 10

[3]:Michael P. Fay和Michael A. Proschan(2010),
“ Wilcoxon-Mann-Whitney或t检验?关于假设检验和决策规则的多种解释的假设”,
Stat Surv4:1–39。
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/

[4]:Berry,KJ,Mielke,PW和Johnston,JE(2012),
“两次抽样秩和检验:早期发展”,《
概率统计统计电子杂志》,第8卷,12月
pdf

[5]:采用Kruskal,WH(1957),
“ 关于未配对的Wilcoxon双样本检验历史笔记”
杂志美国统计协会52,356-360。


我想澄清两件事。您有几个要点提到,例如“如果分布是重尾的,...”(或偏斜等)-大概应理解为“如果合理地假设分布将是重尾的”(从理论上讲) /以前的研究/无论如何),而不是“如果样品太重”,否则我们将再次尝试多步骤测试,这是我们要避免的事情?(在我看来,该主题的中心问题是如何证明对分布的信念或假设是合理的,而又不会对样本有太多了解。)
Silverfish 2014年

是的,应该理解为“已知种群是重尾种群,或者可以合理地预期种群是重尾种群”。这当然包括诸如理论(或者有时甚至是关于尚未完全达到理论地位的情况的一般性推理),专家知识和以前的研究。这并不意味着建议进行重尾测试。在完全未知的情况下,可能有必要研究各种分布下的不良情况,这对于您所遇到的特定情况可能是合理的。
Glen_b 2014年

这个本来很好的答案有可能包含更多关于“加强” t检验的选择的细节吗?
银鱼

Silverfish-我不确定我是否已充分解决您的问题,要求提供有关加固的详细信息。我现在再添加一点。
Glen_b

非常感谢您的添加,我认为这为答案的质量增加了很多。现在,这个问题已经解决了一些,并产生了很好的回答,我想对原始问题进行良好的编辑编辑,并删除任何可能引起误解的内容(以使不读过去的读者受益。问题!)。我可以对您的回复进行适当的编辑,使报价与重组后的问题相匹配吗?
银鱼

22

在我看来,这种有原则的方法认识到(1)正态性的测试和图形评估灵敏度不足,并且图形解释常常不是客观的;(2)多步骤程序具有不确定的操作特性;(3)许多非参数测试具有出色的操作特性在参数测试具有最佳功效的情况下,并且(4)的正确变换通常不是恒等函数,而非参数Yk样本测试对于所选的变换是不变的(对于一样本测试(例如Wilcoxon有符号秩检验)则不是这样。关于(2),在药物开发等领域,如FDA等监督机构理所当然地担心结果的可能操纵,多步骤程序尤其成问题。例如,如果检验导致低值,那么不道德的研究人员可能会方便地忘记报告正态性检验。tP

综上所述,一些建议的指导如下:

  1. 如果没有令人信服的理由在检查数据之前假设高斯分布,并且不需要协变量调整,请使用非参数检验。
  2. 如果需要协变量调整,请使用您偏爱的秩次检验的半参数回归一般化。对于Wilcoxon检验,这是比例赔率模型;对于正常分数检验,这是概率序数回归。

这些建议相当笼统,尽管您的里程可能因某些小样本而有所不同。但是我们知道,对于较大的样本,Wilcoxon 2样本检验和有符号秩检验与检验(如果在2样本的情况下方差相等)相比的相对效率为,当高斯分布不成立时,等级测试的相对效率通常远大于1.0。对我来说,与可能获得的收益,健壮性和不必指定的变换的自由度相比,使用等级测试的信息损失非常小。t3πY

即使不满足其最佳假设,非参数测试也可以执行良好。对于样本问题,等级检验不对给定组的分布进行任何假设;如果您要求测试是最佳的,则它们仅假设组的分布如何相互连接。对于链接累积概率序数模型,假定分布处于比例风险中。对于logit链接累积概率模型(比例赔率模型),假定分布是按比例赔率假设进行连接的,即,累积分布函数的logit是平行的。分布之一的形状无关紧要。详细信息可以在kkloglog讲义第15章中的http://biostat.mc.vanderbilt.edu/CourseBios330

经常考虑的两种常态统计方法假设。首先是使该方法保留I类错误所需的假设。第二个问题涉及保留II型错误(最优性;敏感性)。我认为,揭示第二个假设所需的最佳方法是将非参数测试嵌入到如上所述的半参数模型中。两者之间的实际联系来自半参数模型产生的Rao有效得分测试。对于两个样本的情况,来自比例赔率模型的分数测试的分子正好是秩和统计量。


1
为此,我对这个答案的原理非常同情-例如,许多资料显示,在决定进行测试之前,我至少应该对数据进行正常检查。但是,尽管如此,这种多步骤程序显然会影响测试的运行方式。
Silverfish

1
一些疑问:(1)假设有充分的理由假设高斯分布是先验的(例如先前的研究),因此我们更喜欢t检验。对于很小的来说,评估正常性是没有意义的-无法检测到其违规行为。但是对于左右,例如,如果存在严重的偏斜,则很可能会显示QQ图。避免多步骤程序的理念是否意味着我们应该简单地证明我们的正态假设是合理的,然后继续进行而不检查我们数据的表观分布?同样,在k个样本的情况下,我们默认情况下是否应该假设不等方差而不是尝试检查它?n = 15nn=15
银鱼

3
(+1)我想知道您对Mann-Whitney-Wilcoxon与置换检验的看法如何(我指的是Monte Carlo置换检验,当组标签被打乱(例如次)且值直接计算为洗牌的数量导致更大的群体差异)?p10000p
amoeba 2014年

4
排列测试是控制I型错误但不能解决II型错误的方法。基于次优统计量(例如,当数据来自对数高斯分布时的普通均值和方差)的置换检验将在功效方面受到影响。
弗兰克·哈雷尔

3
是的。《讲义》中的第15章在我即将出版的第二版中扩展为新的一章,我将在下个月提交给出版商。
Frank Harrell 2014年

13

兰德·威尔科克斯(Rand Wilcox)在他的出版物和书中提出了一些非常重要的观点,其中许多观点在弗兰克·哈雷尔(Frank Harrell)和格伦布(Glen_b)的早期文章中都列出了。

  1. 平均值不一定是我们要推断的数量。也许还有其他数量可以更好地例证典型观察。
  2. 对于t检验,即使在偏离正常状态的情况下,功耗也可能较低。
  3. 对于t检验,观察到的概率覆盖范围可能与名义覆盖率显着不同。

一些关键建议是:

  1. 一种可靠的选择是使用t检验比较修整后的均值或M估计量。威尔科克斯建议削减20%的均值。
  2. 理论上,经验似然方法更具优势(Owen,2001),但对于中小n则不一定如此。
  3. 如果需要控制I型错误,但不能获得CI,则可以进行排列测试。
  4. 在许多情况下,Wilcox提出bootstrap-t来比较修整后的均值。在R中,这是在WRS包中的yuenbtyhbt函数中实现的。
  5. 当修整量> / = 20%时,百分比引导程序可能优于百分比-t。在R中,这是在上述WRS包中的函数pb2gen中实现的。

两个很好的参考文献是Wilcox(2010)和Wilcox(2012)。


8

布拉德利(Bradley)在他的“无分布统计测试”(1968年,第17-24页)中,将他所谓的“经典”测试与“无分布”测试进行了十三种对比。请注意,布拉德利将“非参数”和“无分布”区分开来但是出于您的问题之目的,这种区别并不重要。这十三项中包含的元素不仅与测试的派生性有关,而且与它们的应用有关。这些包括:

  • 显着性水平的选择:经典测试具有连续的显着性水平;无分布测试通常具有对显着性水平的离散观察,因此经典测试在设置所述水平时提供了更大的灵活性。
  • 拒绝区域的逻辑有效性:无分布的测试拒绝区域的直观性较差(不一定是平滑的或连续的),并且可能导致何时应该将测试视为拒绝无效假设的困惑。
  • 可检验的统计类型:直接引用Bradley的话:“ 可以通过经典技术来检验根据观测量在算术运算上定义的统计,可以通过检验等级关系(等级)或类别频率等来检验这些统计。自由分布的方法。均值和方差是四分位距前者的例子和中位数和,后者的。 “尤其是与非正态分布处理时,测试其他统计的能力变得有价值,贷款重量的自由分布测试。
  • 高阶交互的可测试性:在经典测试下比无分布测试要容易得多。
  • 样本量的影响:我认为这是相当重要的一个。当样本量较小时(Bradley说n = 10左右),可能很难确定是否违反了传统检验的参数假设。无分布测试没有违反这些假设。此外,即使没有违反假设,无分布测试通常也几乎与测试一样容易应用和效率。因此,对于小样本量(少于10个样本,最多可能有30个样本),Bradley倾向于采用无分配测试的几乎常规应用。对于大样本量,中央极限定理倾向于压倒参数违规,因为样本均值和样本方差将趋于正常,而参数检验在功效方面可能更好。
  • 应用范围:由于没有分布,因此这种测试适用于比假定特定分布的经典测试大得多的一类人群。
  • 违反连续分布假设的可检测性:在无分布测试中很容易看到(例如,存在并列得分),在参数测试中更难发现。
  • 违反连续分布假设的影响:如果违反假设,则测试变得不精确。布拉德利(Bradley)花时间解释了如何针对无分布测试估计不准确的范围,但是对于经典测试却没有类似的例程。

1
谢谢您的引用!Bradley的工作似乎很陈旧,因此我怀疑在现代仿真研究中,在各种情况下比较效率和I / II型错误率没有太多工作吗?我也会对他对Brunner-Munzel检验的建议感兴趣-如果不知道两组的方差相等,是否应该使用它们代替U检验?
Silverfish

1
布拉德利(Bradley)确实讨论了效率,尽管在大多数情况下,它是在渐近相对效率的背景下进行的。他有时会提供资料来源来说明有限样本量的效率,但是由于这项工作是从1968年开始的,所以我相信自那时以来,已经进行了更好的分析。说到这,如果我没错的话,Brunner和Munzel在2000年写了他们的文章,这解释了为什么在Bradley中没有提到它。
阿夫拉罕(Avraham)2014年

是的,的确可以解释!:)您知道是否有比Bradley更新的调查?
银鱼2014年

简短搜索显示,最近有很多关于非参数统计的文章。例如:非参数统计方法(Hollander等,2013),非参数假设检验:秩和置换方法及其在R中的应用(Bonnini等,2014),非参数统计推断,第五版(Gibbons和Chakraborti,2010)。各种各样的搜索中还有许多其他内容。我没有任何建议,因此无法提出建议。抱歉。
Avraham 2014年

5

开始回答这个非常有趣的问题。

对于非配对数据:

由Morten W. Fagerland,Leiv Sandvik (在Paywall后面)执行的五个具有不等方差的偏态分布的两个样本位置测试执行了包含5种不同测试的一系列实验(t检验,Welch U,Yuen-Welch,Wilcoxon-Mann -Whitney和Brunner-Munzel)用于样本大小,样本比率,偏离正态性等的不同组合。该论文最终暗示了Welch U,

但是本文的附录A列出了每种样本量组合的结果。对于小样本量(m = 10 n = 10或25),结果更令人困惑(如预期的那样)-在对结果的估计中(而不是作者的估计),Welch U,Brunner-Munzel的表现同样出色,并且在m = 10和n = 10的情况下,t检验也很好。

到目前为止,这是我所知道的。

对于“快速”解决方案,我经常引用医师对统计数据对研究结果影响的意识增强:t检验和Wilcoxon秩和检验在小样本中的比较功效,由Patrick D Bridge和Shlomo S Sawilowsky应用研究 (也位于付费专栏的后面),无论样本大小如何,都可以直接进入Wilcoxon ,例如,买者自负在比较两个显然非正态分布时是否应该总是选择非参数检验?Eva Skovlund和Grete U. Fensta着

我尚未找到配对数据的任何类似结果


我感谢引用!为了澄清起见,是指“ Welch U”,相同的测试也称为“ Welch t”或“ Welch-Aspin t”,或(如我在问题上可能不恰当的称呼)“ t检验并用Welch校正” ?
Silverfish

据我了解,Welch U不是通常的Welch-Aspin-它没有将Welch-Satterthwaite方程用于自由度,而是一个具有立方和样本平方差的公式尺寸。
雅克·怀纳

尽管有它的名字,它仍然是t检验吗?我在其他任何地方搜索“ Welch U”,似乎都指的是令人沮丧的Welch-Aspin。
银鱼


1

模拟Gamma人口均值的差异

比较t检验和Mann Whitney检验

结果汇总

  • 当两个总体的方差相同时,Mann Whitney检验的真实功效更大,但与t检验相比,真实的1型误差更大。
  • H0
  • 当两个总体的方差不同时,即使均值相同,Mann Whitney检验也会导致较大的1类误差。这是预料之中的,因为曼惠特尼(Mann Whitney)测试的是分布差异而不是均值检验。
  • t检验对方差差异具有鲁棒性,但均值相同

实验1)均值不同,方差相同

考虑使用参数k和缩放的两个伽马分布θ

  • X1k=0.5θ=1E[X1]=kθ=0.5Var[X1]=kθ2=0.5
  • X2k=1.445θ=0.588235 E[X2]=.85Var[X2]=.5

X1X2X1X2

d=(.85.5)/.5=0.5

p

  • H0:μX1=μX2=0.5
  • H1:μX1μX2

P(reject|H0)P(reject|H1)H0H1

资料来源:

人口分布

在此处输入图片说明

仿真结果

在此处输入图片说明

讨论区

  • N=10
  • 对于所有样本量,Mann Whitney检验的功效均大于t检验,在某些情况下,其功效为2倍。
  • 对于所有样本量,Mann Whitney检验的I型误差更大,且误差为2-3倍
  • t检验功率低,样本量少

讨论:当两个总体的方差确实相同时,就小样本量而言,Mann Whitney检验在功效方面大大优于t检验,但1型错误率更高


实验2:方差不同,均值相同

  • X1k=0.5θ=1E[X1]=kθ=.5Var[X1]=kθ2=.5
  • X2k=0.25θ=2 E[X2]=.5Var[X2]=1

H1Var[X1]=Var[X2]Var[X1]Var[X2]

模拟的讨论结果表明,t检验对于不同的方差非常鲁棒,所有样本量的I型误差均接近5%。不出所料,在这种情况下,曼恩·惠特尼(Mann Whitney)检验的表现很差,因为它不是检验均值差异,而是检验分布差异

在此处输入图片说明

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.