在进行t检验时，为什么会更喜欢假设（或检验）相等的方差，而不是总是使用df的Welch逼近？

47

当满足方差均质性的假设时，Welch调整的t检验和标准t检验的结果近似相同。为什么不简单地总是使用Welch调整的t？

variance t-test heteroscedasticity

— 拉塞尔皮尔斯
source

33

我想基于Kubinger，Rasch和Moder（2009）的论文（德语）反对其他两个答案。

他们认为，基于分布的“广泛”模拟，无论满足或不满足t检验所假定的假设（方差的正态性和均一性），当满足这些假设时（即基本相同），韦氏测试的效果都一样好发生alpha和beta错误的可能性），但如果不满足假设（特别是在功效方面），则优于t检验。因此，如果样本量超过30，他们建议始终使用welch-test。

作为元评论：对于对统计感兴趣的人（例如我和这里的大多数人），基于数据的论点（作为我的论点）至少应等同于仅基于理论基础的论点（与此处的其他论点一样）。

更新：
在再次考虑了这个主题之后，我发现了另外两个建议，其中较新的一个对我有帮助。请看原始论文（至少对我来说，这两篇论文都是免费提供的），以得出导致这些建议的论点。

第一条建议来自Graeme D. Ruxton在2006年提出的建议：“ 如果要基于不相关数据的样本比较两个总体的集中趋势，则应始终使用不等方差t检验而不是Student的t检验或：Mann-Whitney U检验。 “
于：
GD，Ruxton，2006年。不等方差t检验是学生t检验和Mann-Whitney U检验的未充分使用的替代方法。 行为。Ecol。17，688-690。

第二个（较旧的）建议来自Coombs等。（1996年，第148）：“ 总之，独立样本t检验是在控制I型误差率方面普遍接受的设置有足够大的大小相等的样品，即使当相等的总体方差假设被违反。对于不等样本大小较大的样本，最好选择不假设总体方差相等的样本；当分布为短尾对称或正态分布时，请使用James二阶检验；有希望的替代样本包括Wilcox H和Yuen修正均值检验，与Welch检验或James检验相比，I型错误率的控制范围更广，并且在长尾数据时具有更大的功效。” （添加了重点）
在：
Coombs WT，Algina J，Oltman D.1996。当总体方差不一定相等时，选择单变量和多变量综合假设检验来控制I型错误率。Rev Educ Res 66：137–79。

— 亨里克
source

3

元响应：好点。但是您的数据可能不会像我的一样！:-)

— whuber

亨里克，如果我将答案编辑为以下内容，您会介意：（1）通过调用学生的t检验和韦尔奇的t检验（如我在大多数文学作品中所发现的那样）来更改术语；（2）包括另一篇在讨论中提出建议的论文：rips-irsp.com/article/10.5334/irsp.82（它强调了基于Levene的同质性测试选择测试时发生的偏见）。

— 布鲁诺

13

当然，人们可以放弃这两种检验，而开始使用贝叶斯t检验（Savage-Dickey比率检验），该检验可以解释不相等和不相等的方差，并且最重要的是，它可以量化证据以支持无效假设（这意味着不再有旧的“拒绝拒绝”言论）

该测试的实现非常简单（快速），并且有一篇论文可以向不熟悉贝叶斯统计信息的读者清楚地说明如何使用它以及R脚本。您基本上只需插入数据即可将命令发送到R控制台：

Wetzels，R.，Raaijmakers，JGW，E.Jakab，＆Wagenmakers，E.-J. （2009）。如何量化对零假设的支持和反对：默认贝叶斯t检验的灵活WinBUGS实现。

对于所有这些，还有一个教程，其中包含示例数据：

http://www.ruudwetzels.com/index.php?src=SDtest

我知道这不是对所提问题的直接回应，但我认为读者可能会喜欢这种不错的选择

干杯

— 戴夫·凯伦
source

8

总是这些贝叶斯人……

— Henrik

3

t检验的另一种贝叶斯替代方法是Kruschke的BEST（贝叶斯估计取代t检验）例程。更多信息，请访问：indiana.edu/~kruschke/BEST。此处的在线版本：sumsar.net/best_online。

— RasmusBååth2013年

7

因为精确的结果优于近似的结果，并避免出现奇数边缘情况，在这种情况下，近似可能导致与精确的方法不同的结果。

韦尔奇（Welch）方法不是执行任何旧t检验的较快方法，它是一个非常棘手的近似方法，解决了一个非常棘手的问题：如何在不等方差下构造t检验。等方差情况已被很好地理解，简单和准确，因此应始终使用。

— 丰富
source

6

我想我倾向于同意约翰·图基（John Tukey）的观点：“ 对正确的问题（通常是模糊的）的近似答案要好于对错误的问题的精确答案，而总是可以使之精确。 ”

— Glen_b

4

当总体样本方差不相等时，均方差（学生）t检验本身仅仅是（理解不足）近似值。因此，除非知道总体方差相等，否则最好使用近似于正确的采样分布（Welch-Satterthwaite），而不是使用不适用于数据模型的完全准确的分布。

— ub

4

我能想到的两个原因：

如果样本大小相等，则常规学生的T对异方差非常强。
如果您先验地相信数据是同质的，那么使用Studen'ts T而不是Welch's T，您将不会损失任何数据，并且可能会获得少量功效。

我不愿给出的一个原因是，学生的T是准确的，而韦尔奇的T不是。恕我直言，学生T的正确性是学术，因为它是唯一确切的正态分布的数据，并没有真正的数据是准确正态分布。我想不出人们实际进行统计测量和分析的单个数量，在这个数量上，分布似乎有可能支持所有实数。例如，宇宙中只有这么多原子，而且某些数量不能为负。因此，当您对真实数据使用任何类型的T检验时，无论如何都在进行近似。

— dsimcha
source

2

当基础总体方差有很大差异时，（1）是不正确的。在极端情况下（要弄清楚为什么如此），请考虑当一个总体完全没有方差时会发生什么。学生t实际上将把来自其他总体的数据与一个常数进行比较，但它会认为它具有两倍的自由度。它产生的错误将与仅使用Z测试相当。

— ub

虽然@whuber是正确的，但这仅适用于极端情况。我只是在看1e6：1方差和p≈.053。因此，它可以发生，但我仍然认为它与平等N.相当强劲

— 约翰·

@John 1e6：1的方差比是巨大的，无论可能是多少。在这种情况下，学生的t可能会产生误导。

n_{i}

$n_i$

— 胡伯

@whuber，我只是建议，尽管您的上述评论在技术上是正确的，但韦尔奇校正并不是您作为示例提出的问题的解决方案，并且就Alpha率而言，它甚至对测试的鲁棒性也没有真正的批评（这是（1）通常的意思）。正如您所建议的，当（极端）不等方差是一个问题时，您还会遇到其他问题，但这实际上是一个不同的话题。

— 约翰·约翰（John

3

当检查某些假设时，更复杂的事物减少为不那么复杂的事实不足以抛弃更简单的方法。

4

特别是在学生方面。

— 马特·帕克

2

我在这里持相反的观点。当标准的非配对学生t检验为您提供几乎相同的结果时，为什么还要为Welch检验感到烦恼。我前一段时间研究了这个问题，并探索了各种情况，以试图打破t检验并支持Welch检验。为此，我对一组使用的样本量最多是另一组的5倍。而且，我探索了一组的差异最多是另一组的25倍。而且，它确实没有任何实质性的区别。未配对的t检验仍然产生与Welch检验几乎相同的p值范围。

您可以在以下链接中查看我的作品，并专注于幻灯片5和6。

http://www.slideshare.net/gaetanlion/unpaired-t-test-family

— Sympa
source

抱歉，您对大样本公式和小样本公式有何区别？您是否在大样本中使用总体公式而不是总体方差的样本估计来计算方差？

— russellpierce

未配对的学生t检验有两个公式。大样本公式适用于具有30多个观测值的样本。小样本公式适用于少于30个观察值的样本。这些公式的主要区别在于它们如何计算合并的标准误差。小样本公式更加复杂和违反直觉。而且，实际上它几乎没有什么区别。我已经测试了几次。这就是为什么我认为大多数人都忘记了这种区别。而且，他们大部分时间都使用大样本公式。

— Sympa 2010年

0

的确，至少在错误方面，Welch校正测试的频度特性优于普通的StudentT。我同意，对于Welch测试，仅此一项是一个很好的论据。但是，我通常不推荐Welch校正，因为它的使用通常具有欺骗性。诚然，这并不是对测试本身的批评。

我不推荐Welch校正的原因是，它不只是改变自由度和随后从中得出p值的理论分布。它使测试成为非参数。为了执行Welch校正的t检验，仍然要汇总方差，就好像可以假定相等方差一样，然后更改最终测试过程，这意味着不能假定相等方差，或者您只关心样本方差。这使之成为非参数测试，因为合并的方差被认为不代表总体，并且您承认自己只是在测试观察值。

就其本身而言，这没有什么特别的错误。但是，我发现它具有欺骗性，因为a）通常没有足够的特异性对其进行报道；b）使用它的人倾向于与t检验互换考虑。我唯一知道在已发表论文中完成此操作的方法是，当我看到t分布的奇数DF时。这也是Rexton（在Henrik的答案中引用）可以回顾的唯一方法。不幸的是，无论自由度是否发生变化（即，即使样本方差相等），都会出现Welch校正检验的非参数性质。但是，此报告问题是以下事实的征兆：大多数使用Welch校正的人都没有意识到测试已发生这种变化。

因此，因此，我相信如果您要推荐一种非参数测试，请不要使用经常显示为参数的测试，或者至少要非常清楚自己在做什么。测试的正式名称应为“非参数Welch校正T测试”。如果人们以这种方式报告，我会对亨里克的建议感到更加高兴。

— 约翰
source

对于韦尔奇考试为何可能具有“欺骗性”，我在您的答案中找不到任何支持。你能解释一下这个基础吗？

— whuber

也许我的编辑澄清了@whuber的问题。我应该清楚地知道，它不能保证具有欺骗性，但是对于测试的用户和测试结果的阅读者来说往往是欺骗性的。

— 约翰

1

谢谢。除了报告问题（将其描述为测试的错误是不公平的！）之外，这在您看来还有些反对，认为Welch测试是非参数的。那可能是怎么回事？ Ceteris paribus，这必须被视为优势，而不是问题。

— ub

1

通常尚不清楚这一区别。我在回答中承认，这本身并不是问题，但大多数人倾向于参数化地对待它，这是一个错误。我认为这里不是讨论非参数测试的收益或成本的地方。另外，线程中未提及它，这对许多人来说可能是个问题。顺便说一句，我们的入门统计课中有两个与学生t检验同时进行教授和推广，但在非参数检验中有单独的完整部分。

— 约翰·约翰（John

您能否阐明“使测试成为非参数”的含义？

— Glen_b