当成对t检验都不存在时,方差分析是否有意义?


29

如果没有成对t检验,单向(组或“水平”)ANOVA可能会报告显着差异?ñ>2ññ-1个/2

这个答案中 @whuber写道:

众所周知,即使在任何一对均值的单独[未调整的成对] t检验都不会产生显着结果的情况下,全局ANOVA F检验也可以检测均值的差异。

因此显然有可能,但我不知道如何。什么时候发生,这种情况背后的直觉是什么?也许有人可以提供这种情况的简单玩具示例?

进一步说明:

  1. 显然可能存在相反的情况:总体ANOVA可能不显着,而某些成对的t检验错误地报告了显着差异(即,那些都是假阳性)。

  2. 我的问题是关于标准的,未经多次比较t检验的调整。如果使用调整后的测试(例如Tukey的HSD程序),那么即使整体ANOVA仍然没有一个是有意义的。这在几个问题中都涉及到,例如,如何获得显着的总体ANOVA,但与Tukey的过程没有成对的显着差异?显着的方差分析相互作用,但非显着的成对比较

  3. 更新。我的问题最初是指通常的两样本成对t检验。但是,正如@whuber在评论中指出的那样,在方差分析的背景下,t检验通常被理解为事后对比,它使用对所有组进行汇总的组内方差的ANOVA估计(这不是两个组中发生的事情) -样本t检验)。因此,我的问题实际上有两个不同的版本,对它们的回答都被肯定。见下文。


3
您的问题涉及很多主题:请尝试通过显着回归搜索我们的网站。(ANOVA是最小二乘回归的应用。)例如,stats.stackexchange.com / questions / 14500 /…提供了一个明确的示例和一些直觉。请研究这些内容,并在可能的情况下编辑您的问题,以将其与以前的主题区分开。
ub

谢谢,我以前没看过。但是,我真的很难将这些关于多元回归的解释转换为ANOVA比较语言。当然,这是我自己的问题,但我想我并不孤单,所以也许我的问题的答案对社区仍然有用。这是我的困惑:有人举了个例子,将体重降低到左/右鞋子的大小(两个高度相关的IV)=> F signif,t不是。很好。现在在3组ANOVA回归中,有2个虚拟 IV。他们是假的=>总是完美地反相关...那又如何呢?
变形虫说恢复莫妮卡2014年

恐怕我不听最后一句话。首先,问题不一定与设计矩阵中的强相关性相关。第二,虚拟变量不是 “完全反相关的”:如果是,则该软件无论如何都必须删除其中一个。您可能在更复杂的ANOVA模型中指的是微妙的问题
whuber

@amoeba:您的虚拟变量是负相关的。
Michael M

3
我不赞成你的“进一步评论”。1.仅仅因为您具有非常重要的成对比较,并且不显着的F并不意味着那些重要的结果是假阳性。为了确定某事是否为假阳性,您必须知道实际的手段(亩)没有差异。F统计数据不是神圣的。实际上,它甚至不是强制性的。它对于模型选择最有用,但除此之外,它几乎无法提供有关数据中具体情况的信息。
rvl

Answers:


18

注意:我的原始示例出了点问题。我愚蠢地被R的无声论据循环所吸引。我的新示例与旧示例非常相似。希望现在一切正常。

这是我制作的一个示例,它的ANOVA在5%的水平上很显着,但是即使在5%的水平下,这6个成对比较都没有显着性。

数据如下:

g1:  10.71871  10.42931   9.46897   9.87644
g2:  10.64672   9.71863  10.04724  10.32505  10.22259  10.18082  10.76919  10.65447 
g3:  10.90556  10.94722  10.78947  10.96914  10.37724  10.81035  10.79333   9.94447 
g4:  10.81105  10.58746  10.96241  10.59571

在此处输入图片说明

这是方差分析:

             Df Sum Sq Mean Sq F value Pr(>F)  
as.factor(g)  3  1.341  0.4469   3.191 0.0458 *
Residuals    20  2.800  0.1400        

这是两个样本t检验p值(均方差假设):

        g2     g3     g4
 g1   0.4680 0.0543 0.0809 
 g2          0.0550 0.0543 
 g3                 0.8108

只要稍微弄些组均值或单个点,就可以使显着性差异更加显着(因为我可以将第一个p值减小,而将t检验的六个p值集合中的最小p值增大) )。

-

编辑:这是一个附加示例,该示例最初是由有关趋势的噪声生成的,它显示了将点稍微移动一下可以做的更好的事情:

g1:  7.27374 10.31746 10.54047  9.76779
g2: 10.33672 11.33857 10.53057 11.13335 10.42108  9.97780 10.45676 10.16201
g3: 10.13160 10.79660  9.64026 10.74844 10.51241 11.08612 10.58339 10.86740
g4: 10.88055 13.47504 11.87896 10.11403

F的p值低于3%,t的p值都不低于8%。(对于3组示例-但F上的p值稍大-省略第二组)

这是一个非常简单的,甚至更虚假的示例,包含3组:

g1: 1.0  2.1
g2: 2.15 2.3 3.0 3.7 3.85
g3: 3.9  5.0

(在这种情况下,最大的方差在中间组上-但是由于那里的样本量较大,所以组均值的标准误仍然较小)


多重比较t检验

ub建议我考虑多重比较的情况。事实证明这很有趣。

进行多个比较的情况(所有操作均在原始显着性水平下进行-即无需为多个比较调整alpha值)很难实现,因为在不同组中使用越来越大的方差或越来越少的df都无济于事就像使用普通的两样本t检验一样。

但是,我们仍然拥有操纵组数和显着性水平的工具。如果我们选择更多的组和较小的显着性水平,则再次容易地确定案例。这是一个:

取八组。将前四组的值定义为(2,2.5),将后四组的值定义为(3.5,4),并取 (例如)。然后我们有一个显着的F:ñ一世=2α=0.0025

> summary(aov(values~ind,gs2))
            Df Sum Sq Mean Sq F value  Pr(>F)   
ind          7      9   1.286   10.29 0.00191 
Residuals    8      1   0.125                   

但是,成对比较中的最小p值对该级别并不重要:

> with(gs2,pairwise.t.test(values,ind,p.adjust.method="none"))

        Pairwise comparisons using t tests with pooled SD 

data:  values and ind 

   g1     g2     g3     g4     g5     g6     g7    
g2 1.0000 -      -      -      -      -      -     
g3 1.0000 1.0000 -      -      -      -      -     
g4 1.0000 1.0000 1.0000 -      -      -      -     
g5 0.0028 0.0028 0.0028 0.0028 -      -      -     
g6 0.0028 0.0028 0.0028 0.0028 1.0000 -      -     
g7 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 -     
g8 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 1.0000

P value adjustment method: none 

2
两样本t检验与回归中的成对检验不同。区别在于剩余方差的估计。因此,您的示例实际上并不是更强悖论的示例,也就是说,在一次回归分析中,F检验可能是有意义的,而其成对比较中都没有。我相信这种悖论也不一定源于异方差:即使所有组方差都相等,它也可能出现。
whuber

4
更有趣的仍然可能是地址时,它可能为F检验拒绝零,但没有配对t检验的在同一显着性水平(使用相同的误差方差估计为F-测试)拒绝它。例如,对于三个样本量相等的组,即使样本量非常大,成对t检验的5%拒绝区域的并集仍包含ANOVAR F检验的5%拒绝区域。
Scortchi-恢复莫妮卡

4
0.005F

4
变形虫,这种混淆是由于“成对t检验”可能意味着两件事而引起的。在方差分析的背景下,通常应理解为表示使用方差分析的事后对比。正如其他人指出的那样,这与对成对的组进行常规t检验不同,因为ANOVA版本基于对所有组得出的组内方差的估计。
whuber

2
我认为您做了一个很好的总结。从某种意义上说,当所有测试都在一个ANOVA分析的框架内进行时,人们会(天真的)期望它们在内部是一致的,因此我将悖论称为“更强的”。(当您进行两组本质上不相关的测试时,当它们给出相互矛盾的结果时,应该不会感到惊讶:这种情况经常发生。)我们必须接受得出该组在逻辑上是一致且在统计上有效的结论均值差异很大,而没有发现任何特定的成对组之间的差异。
whuber

4

简介:我相信这是可能的,但是非常非常不可能。差异将很小,并且如果发生,是因为违反了一个假设(例如方差的均方差)。

这是一些寻找这种可能性的代码。请注意,每次运行时,它将使种子增加1,以便存储种子(并且对种子的搜索是系统的)。

stopNow <- FALSE
counter <- 0
while(stopNow == FALSE) {
  counter <- counter + 1
  print(counter)
  set.seed(counter)
  x <- rep(c(0:5), 100)
  y <- rnorm(600) + x * 0.01
  df  <-as.data.frame( cbind(x, y))
  df$x <- as.factor(df$x)
  fit <- (lm(y ~ x, data=df))
  anovaP <- anova(fit)$"Pr(>F)"[[1]]
       minTtestP <- 1
      for(loop1 in c(0:5)){
        for(loop2 in c(0:5)) {
          newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y)$p.value
      minTtestP <- min(minTtestP, newTtestP )    
      }
   }

  if(minTtestP > 0.05 & anovaP < 0.05) stopNow <- TRUE 
  cat("\nminTtestP = ", minTtestP )
  cat("\nanovaP = ", anovaP )
  cat("\nCounter = ", counter, "\n\n" )
}

在搜索有效的R2且没有非显着的t检验时,我发现18,000的种子没有任何发现。从R2中寻找比t检验更低的p值,我得到了seed = 323的结果,但是差别非常非常小。调整参数(增加组数?)可能会有所帮助。R2 p值可以较小的原因是,当为回归中的参数计算标准误差时,将所有组组合在一起,因此差异的标准误差可能比t检验小。

我想知道违反异方差是否会有所帮助(确实如此)。是的 如果我用

y <- (rnorm(600) + x * 0.01) * x * 5

要生成y,然后在seed = 1889处找到合适的结果,其中t检验的最小p值为0.061,与R平方相关的p值为0.046。

如果我改变组的大小(这增加了违反异方差性的影响),可以通过将x采样替换为:

x <- sample(c(0:5), 100, replace=TRUE)

在种子= 531时,我得到了显着的结果,最小的t检验p值为0.063,R2的p值为0.046。

如果我停止在t检验中校正异方差,请使用:

newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y, var.equal = TRUE)$p.value

我的结论是,除非您在回归中违反了均方差假设,否则这种情况极不可能发生,并且差异可能很小。尝试使用健壮性/三明治/任何您想称之为校正的内容来运行分析。


您似乎有一个未完成的句子,开头是“如果我停止在t检验中校正异方差”。除此之外,非常感谢!请参阅我对问题的更新。还要注意@whuber在这里的第一个评论;如果我理解正确,他坚持认为这种情况很容易发生(?)(并称其为“众所周知”)。也许这里有些误解,但这是什么?
变形虫说恢复莫妮卡2014年

我认为@whuber在谈论模型中的非重要参数,而不是非重要的t检验。
Jeremy Miles

不,他不是。如果它是众所周知的,我不知道,我已经尝试提出一个例子,但是没有。
杰里米·迈尔斯

1
那么,我很高兴@Glen_b产​​生了一个简单的例子。直觉是,总体检验评估是否有证据表明仅通过残差方差不能合理地解释群体均值中的价差。每次仅涉及两种均值的成对检验在评估同一证据时必须更加保守。因此,当所有均值的总体分布很重要时,即使比较两个极端组均值也可能无法发现显着差异。在实践中有时会发生这种情况,尤其是在有大量组的情况下。
whuber

3
顺便说一句,之所以称其为“知名”,是因为我记得在Systat软件手册c中对此有所警告。1989年。这是一本很有启发性的手册(其中大部分是由开发人员Leland Wilkinson亲自编写的),现在可能仍然如此。该手册在线,但是您必须在Systat网站上注册才能下载。
whuber

2

完全有可能:

  • 一个或多个成对的t检验很重要,但总体F检验却没有
  • 总体F检验很显着,但成对t检验都不是

总体F检验同时测试所有对比。因此,它必须对单个对比(例如成对测试)不那么敏感(统计功​​效较小)。这两个测试彼此密切相关,但是它们并没有报告完全相同的事物。

如您所见,除非整体F检验有效,否则教科书中建议不要进行计划内的比较并不总是正确的。实际上,该建议可能会阻止我们发现重大差异,因为总体F检验的能力低于计划的比较以测试特定差异。


我不确定我是否遵循您的回答。您是说通过F检验拒绝H0意味着至少存在一个非零对比,但是该对比可能不对应任何成对比较?如果是这样,是否意味着如果F检验拒绝H0,那么在所有可能的对比中至少有一项成对检验也会导致拒绝?
变形虫说恢复莫妮卡

@amoeba我已经编辑了答案。
SmallChess
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.