Answers:
我想基于Kubinger,Rasch和Moder(2009)的论文(德语)反对其他两个答案。
他们认为,基于分布的“广泛”模拟,无论满足或不满足t检验所假定的假设(方差的正态性和均一性),当满足这些假设时(即基本相同),韦氏测试的效果都一样好发生alpha和beta错误的可能性),但如果不满足假设(特别是在功效方面),则优于t检验。因此,如果样本量超过30,他们建议始终使用welch-test。
作为元评论:对于对统计感兴趣的人(例如我和这里的大多数人),基于数据的论点(作为我的论点)至少应等同于仅基于理论基础的论点(与此处的其他论点一样)。
更新:
在再次考虑了这个主题之后,我发现了另外两个建议,其中较新的一个对我有帮助。请看原始论文(至少对我来说,这两篇论文都是免费提供的),以得出导致这些建议的论点。
第一条建议来自Graeme D. Ruxton在2006年提出的建议:“ 如果要基于不相关数据的样本比较两个总体的集中趋势,则应始终使用不等方差t检验而不是Student的t检验或:Mann-Whitney U检验。 “
于:
GD,Ruxton,2006年。不等方差t检验是学生t检验和Mann-Whitney U检验的未充分使用的替代方法。
行为。Ecol。17,688-690。
第二个(较旧的)建议来自Coombs等。(1996年,第148):“ 总之,独立样本t检验是在控制I型误差率方面普遍接受的设置有足够大的大小相等的样品,即使当相等的总体方差假设被违反。对于不等样本大小较大的样本,最好选择不假设总体方差相等的样本;当分布为短尾对称或正态分布时,请使用James二阶检验;有希望的替代样本包括Wilcox H和Yuen修正均值检验,与Welch检验或James检验相比,I型错误率的控制范围更广,并且在长尾数据时具有更大的功效。” (添加了重点)
在:
Coombs WT,Algina J,Oltman D.1996。当总体方差不一定相等时,选择单变量和多变量综合假设检验来控制I型错误率。Rev Educ Res 66:137–79。
当然,人们可以放弃这两种检验,而开始使用贝叶斯t检验(Savage-Dickey比率检验),该检验可以解释不相等和不相等的方差,并且最重要的是,它可以量化证据以支持无效假设(这意味着不再有旧的“拒绝拒绝”言论)
该测试的实现非常简单(快速),并且有一篇论文可以向不熟悉贝叶斯统计信息的读者清楚地说明如何使用它以及R脚本。您基本上只需插入数据即可将命令发送到R控制台:
Wetzels,R.,Raaijmakers,JGW,E.Jakab,&Wagenmakers,E.-J. (2009)。如何量化对零假设的支持和反对:默认贝叶斯t检验的灵活WinBUGS实现。
对于所有这些,还有一个教程,其中包含示例数据:
http://www.ruudwetzels.com/index.php?src=SDtest
我知道这不是对所提问题的直接回应,但我认为读者可能会喜欢这种不错的选择
干杯
因为精确的结果优于近似的结果,并避免出现奇数边缘情况,在这种情况下,近似可能导致与精确的方法不同的结果。
韦尔奇(Welch)方法不是执行任何旧t检验的较快方法,它是一个非常棘手的近似方法,解决了一个非常棘手的问题:如何在不等方差下构造t检验。等方差情况已被很好地理解,简单和准确,因此应始终使用。
我能想到的两个原因:
如果样本大小相等,则常规学生的T对异方差非常强。
如果您先验地相信数据是同质的,那么使用Studen'ts T而不是Welch's T,您将不会损失任何数据,并且可能会获得少量功效。
我不愿给出的一个原因是,学生的T是准确的,而韦尔奇的T不是。恕我直言,学生T的正确性是学术,因为它是唯一确切的正态分布的数据,并没有真正的数据是准确正态分布。我想不出人们实际进行统计测量和分析的单个数量,在这个数量上,分布似乎有可能支持所有实数。例如,宇宙中只有这么多原子,而且某些数量不能为负。因此,当您对真实数据使用任何类型的T检验时,无论如何都在进行近似。
我在这里持相反的观点。当标准的非配对学生t检验为您提供几乎相同的结果时,为什么还要为Welch检验感到烦恼。我前一段时间研究了这个问题,并探索了各种情况,以试图打破t检验并支持Welch检验。为此,我对一组使用的样本量最多是另一组的5倍。而且,我探索了一组的差异最多是另一组的25倍。而且,它确实没有任何实质性的区别。未配对的t检验仍然产生与Welch检验几乎相同的p值范围。
您可以在以下链接中查看我的作品,并专注于幻灯片5和6。
的确,至少在错误方面,Welch校正测试的频度特性优于普通的StudentT。我同意,对于Welch测试,仅此一项是一个很好的论据。但是,我通常不推荐Welch校正,因为它的使用通常具有欺骗性。诚然,这并不是对测试本身的批评。
我不推荐Welch校正的原因是,它不只是改变自由度和随后从中得出p值的理论分布。它使测试成为非参数。为了执行Welch校正的t检验,仍然要汇总方差,就好像可以假定相等方差一样,然后更改最终测试过程,这意味着不能假定相等方差,或者您只关心样本方差。这使之成为非参数测试,因为合并的方差被认为不代表总体,并且您承认自己只是在测试观察值。
就其本身而言,这没有什么特别的错误。但是,我发现它具有欺骗性,因为a)通常没有足够的特异性对其进行报道;b)使用它的人倾向于与t检验互换考虑。我唯一知道在已发表论文中完成此操作的方法是,当我看到t分布的奇数DF时。这也是Rexton(在Henrik的答案中引用)可以回顾的唯一方法。不幸的是,无论自由度是否发生变化(即,即使样本方差相等),都会出现Welch校正检验的非参数性质。但是,此报告问题是以下事实的征兆:大多数使用Welch校正的人都没有意识到测试已发生这种变化。
因此,因此,我相信如果您要推荐一种非参数测试,请不要使用经常显示为参数的测试,或者至少要非常清楚自己在做什么。测试的正式名称应为“非参数Welch校正T测试”。如果人们以这种方式报告,我会对亨里克的建议感到更加高兴。