如何解释I型,II型和III型ANOVA和MANOVA?


45

我的主要问题是进行I型(顺序)方差分析时如何解释输出(系数,F,P)?

我的具体研究问题要复杂一些,因此我将把例子分成几部分。首先,如果我对蜘蛛密度(X1)对植物生长(Y1)的影响感兴趣,并且我在围墙内种植了幼苗并控制了蜘蛛密度,那么我可以使用简单的ANOVA或线性回归分析数据。然后,对于ANOVA使用I,II或III平方和(SS)都没关系。就我而言,我有5个密度级别的4个副本,因此可以将密度用作因子或连续变量。在这种情况下,我更喜欢将其解释为连续的独立(预测变量)变量。在RI中可以运行以下命令:

lm1 <- lm(y1 ~ density, data = Ena)
summary(lm1)
anova(lm1)

运行方差分析功能对于以后的比较很有希望,因此请在这里忽略它的奇怪之处。输出为:

Response: y1
          Df  Sum Sq Mean Sq F value  Pr(>F)  
density    1 0.48357 0.48357  3.4279 0.08058 .
Residuals 18 2.53920 0.14107 

现在,让我怀疑我无法控制的土壤中无机氮的起始水平可能也显着影响了植物的生长。我对这种效果并不特别感兴趣,但是想潜在地解释它引起的变化。确实,我的主要兴趣在于蜘蛛密度的影响(假设:蜘蛛密度的增加会导致植物生长的增加-大概是通过减少草食性昆虫引起的,但我只测试这种作用而不是机理)。我可以将无机氮的影响添加到我的分析中。

出于我的问题,让我们假设我测试了交互作用密度* inorganicN,并且它并不重要,因此我将其从分析中删除并运行以下主要效果:

> lm2 <- lm(y1 ~ density + inorganicN, data = Ena)
> anova(lm2)
Analysis of Variance Table

Response: y1
           Df  Sum Sq Mean Sq F value  Pr(>F)  
density     1 0.48357 0.48357  3.4113 0.08223 .
inorganicN  1 0.12936 0.12936  0.9126 0.35282  
Residuals  17 2.40983 0.14175 

现在,无论我使用Type I还是Type II SS(我都知道有人反对Type I和II等术语,但考虑到SAS的普及,这很容易实现)就有所不同。R anova {stats}默认使用类型I。我可以通过反转主要效果的顺序来计算II型SS,F和P的密度,也可以使用John Fox博士的“汽车”套装(与应用回归结合使用)。我更喜欢后一种方法,因为它更容易解决更复杂的问题。

library(car)
Anova(lm2)
            Sum Sq Df F value  Pr(>F)  
density    0.58425  1  4.1216 0.05829 .
inorganicN 0.12936  1  0.9126 0.35282  
Residuals  2.40983 17  

我的理解是,II型假设是:“给定(保持常数?)x2,x1对y1没有线性影响”,而给定x1,x2则相同。我想这就是我感到困惑的地方。与使用II型方法的假设相比,通过ANOVA使用上述I型(顺序)方法检验的假设是什么?

实际上,我的数据要复杂一些,因为我测量了许多植物生长,养分动态和凋落物分解的指标。我的实际分析是这样的:

Y <- cbind(y1 + y2 + y3 + y4 + y5)
# Type II
mlm1 <- lm(Y ~ density + nitrate + Npred, data = Ena)
Manova(mlm1)

Type II MANOVA Tests: Pillai test statistic
        Df test stat approx F num Df den Df  Pr(>F)    
density  1   0.34397        1      5     12 0.34269    
nitrate  1   0.99994    40337      5     12 < 2e-16 ***
Npred    1   0.65582        5      5     12 0.01445 * 


# Type I
maov1 <- manova(Y ~ density + nitrate + Npred, data = Ena)
summary(maov1)

          Df  Pillai approx F num Df den Df  Pr(>F)    
density    1 0.99950     4762      5     12 < 2e-16 ***
nitrate    1 0.99995    46248      5     12 < 2e-16 ***
Npred      1 0.65582        5      5     12 0.01445 *  
Residuals 16                                           

Answers:


71

nn11n12n21n22r=.1r是“重要的”,这就是您关心的全部人口)。与您的因素被相关联的问题是,有是与相关联的平方和两个 A和B.当计算方差分析(或任何其它线性回归),我们要划分平方和。分区将所有平方和都放入一个且只有一个几个子集。(例如,我们可能希望将SS分为A,B和错误。)但是,由于您的因子(此处仍然只有A和B)不是正交的,因此这些SS没有唯一的分区。实际上,可以有很多分区,并且如果您愿意将SS切成碎片(例如,“我将0.5放入此bin,将0.5放入该bin”),则存在无限的分区。可视化此方法的一种方式是想象万事达卡(MasterCard)符号:矩形代表总SS,每个圆圈代表可归因于该因素的SS,但请注意中心圆圈之间的重叠,可以给定这些SS到任一圈。

在此处输入图片说明

问题是:我们如何从所有这些可能性中选择“正确的”分区?让我们重新进行互动并讨论一些可能性:

I型SS:

  • SS(A)
  • SS(B | A)
  • SS(A * B | A,B)

II型SS:

  • SS(A | B)
  • SS(B | A)
  • SS(A * B | A,B)

III型SS:

  • SS(A | B,A * B)
  • SS(B | A,A * B)
  • SS(A * B | A,B)

注意这些不同的可能性是如何工作的。只有I型SS实际上在MasterCard符号中圆圈之间的重叠部分中使用了那些SS。也就是说,可以归因于A或B的SS,实际上,当你使用I型SS归因于他们的一个(具体而言,您输入到模型中第一个)。在这两种其他方法,重叠SS不使用在所有。因此,类型I SS将归因于A的所有SS(包括那些也可以归因于其他位置的SS )赋予A,然后将归因于B的所有剩余 SS赋予B,然后赋予A * B交互作用在的剩下的归因于A * B的SS,并且将无法归因于误差项的剩余部分留给了误差项。

III型SS只给出了一个那些SS是唯一地归属于A,同样只给予B和属于相互作用的那些SS 唯一地归属于它们。错误项只能获取那些不能归因于任何因素的SS。因此,没有使用那些可归因于2种或更多可能性的“模棱两可”的SS。如果在ANOVA表中对III型SS求和,您会发现它们不等于总SS。换句话说,这种分析肯定是错误的,但是会以一种认识论上的保守方式犯错。许多统计学家认为这种方法过于严格,但是政府资助机构(我相信是FDA)要求使用这种方法。

II型方法旨在捕获III型概念背后可能有价值的内容,但要避免其过大之处。具体而言,它仅调整A和B的SS,而不调整交互。但是,实际上,实际上从未使用过II型SS。您将需要了解所有这些信息,并且对您的软件足够了解,以获取这些估计,并且通常认为这是多余的分析师。

SS的类型更多(我相信IV和V)。他们在60年代后期被建议处理某些情况,但后来证明他们没有按照自己的想法行事。因此,在这一点上,它们只是一个历史脚注。

至于这些答案是什么,基本上您已经在问题中拥有了正确的权限:

  • 使用I SS类型的估算值告诉您Y可以由A解释多少可变性,B可以由B解释多少剩余可变性,相互作用可以解释剩余的剩余可变性等等,等等,为了
  • 根据III类SS进行的估算可以告诉您,在考虑了所有其他因素之后,A可以解决Y中的剩余残差的多少,而在考虑其他所有因素之后,B可以解决Y中的剩余残差的多少。等等。(请注意,两者都应同时进行;如果这对您有意义,并且可以准确反映您的研究问题,请使用III型SS。)

2
感谢您的帮助。我感到困惑的另一个方面是,如果“使用I型SS的估算值告诉您Y的多少可变性可以由A解释,剩余的可变性可以由B解释,还有多少剩余的剩余性?可变性可以通过交互作用来解释,依此类推,依次类推。”那么,当添加其他变量时,为什么统计信息与A关联?是因为测试基于SS(A)/ SS(error),并且误差是模型中所有项的函数?我是否正确地考虑了这一点?
djhocking 2012年

1
我将“与A相关的统计信息”解释为是指A的主要作用的F和p值。A的F值是A的均方根(即SSA / dfA)与A的均方之比。 MS错误。随着您添加更多因素,SS从误差项中获取并赋予这些因素。通常,这意味着MS误差下降,因此比率上升。结果,A的F值变大而p值变小。因为自由度也会改变,所以它可能比这更复杂,但这就是要点。
gung-恢复莫妮卡

抱歉,我的意思是F统计的MS(A)/ MSE。无论如何,您的答案是完美的,再次感谢您的所有帮助!
djhocking 2012年

我对使用I型时解释的细节感到好奇。就我而言,密度是我唯一感兴趣的变量,也是我实验上操纵的唯一变量。但是不幸的是,密度本身或在考虑了我感兴趣的其他两个变量(Npredators,II型或III型无机N)后,密度都微不足道。但是因为当我将其添加为第3个变量时,anotherN显然可以解释某些因变量的大部分变化,因此它使其他2个变量具有很高的意义。因此,密度真的对Y有重大影响吗?这合理吗?
djhocking 2012年

2
@JonBonJovi,万事达卡的类比只有两个因素。如果您想要2个因素加上一个相互作用,那么您将需要3个相互重叠的区域。当然可以绘制一个具有3个区域的欧拉图,但是为了简单起见,我仅使用万事达卡符号。对于互动,请想象第三个圆圈与前两个圆圈重叠(例如,它可以从右到左居中,但大多位于其他圆圈的上方);那么所有 A圈(SS)都将转到A,B 所有不与A重叠的内容都将到达B,并且A B中所有不重叠的内容将变为* A B进行交互。
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.