方差分析中变量的顺序很重要,不是吗?


20

我是否正确理解,在多元ANOVA中指定变量的顺序会有所不同,但是在进行多元线性回归时顺序并不重要?

因此,假设存在诸如测得的失血量 y和两个分类变量之类的结果

  1. 增殖腺切除术的方法 a
  2. 扁桃体切除方法 b

该模型y~a+b不同于该模型y~b+a(或因此我在R中的实现似乎表明了这一点)。

我是否正确理解这里的术语是方差分析是一种层次模型,因为它在尝试将剩余方差归因于第二因素之前首先将尽可能多的方差归因于第一因素?

在上面的示例中,层次结构是有道理的,因为我总是在进行扁桃体切除术之前先进行腺样体切除术,但是如果一个人有两个没有内在顺序的变量会怎样?


12
设计不均衡的方差分析中的顺序很重要,即像元大小不相等时。通常以“平方和的类型”为标题处理该主题。请参阅epm.sagepub.com/content/38/3/621.full.pdf+html和chl对stats.stackexchange.com/questions/11209/…
caracal


我刚刚扩展了对我的较早的讨论,希望它能对此问题提供另一个启示。它肯定仍然需要工作,并且可能有人愿意帮助编辑它。到目前为止,这是我所拥有的:go.helms-net.de/stat/div/%28SSE%29%20ANovaRegression_SPSS_R.htm可能有一些有趣的东西,有可能被提取为此处对该问题的一些明确答案。
Gottfried Helms

Answers:


17

这个问题显然来自一项研究,该研究采用不平衡的双向设计,并在R中对该aov()函数进行了分析。此页面提供了此问题的更新和详细示例。

对于这个问题,一般的答案是:“取决于情况”。在此取决于设计是否平衡,如果不平衡,则取决于选择哪种方差分析。

首先,这取决于设计是否平衡。在所有可能的情况中,在析因设计的所有像元中案件数量相等的情况下,无论如何执行ANOVA,将因素输入模型的顺序都不会有任何区别。*显然,来自回顾性临床队列研究似乎来自现实世界,而这种现实并未找到这种平衡。因此顺序可能很重要。

其次,它取决于方差分析的执行方式,这是一个有争议的问题。不平衡设计的ANOVA类型在评估主要效果和相互作用的顺序上有所不同。评估相互作用是双向高阶方差分析的基础,因此,关于最佳处理方式存在争议。请参阅此交叉验证页面以获取一种解释和讨论。请从包装手册中的详细信息和警告Anova()(带有大写字母“ A”)功能的警告中查看不同car包装

在R 的默认设置下,因子的顺序在不平衡设计中很重要aov(),它使用所谓的I型测试。如当前问题所设想的,这些是按进入模型的顺序对因素的方差的顺序归因。顺序与R 中包装中的功能所提供的II型或III型测试无关。但是,这些替代方案在上述链接中指出了自己的潜在缺点。Anova()car

最后,考虑与lm()R中的多元线性回归的关系,如果包括交互项,则该关系基本上是同一类型的模型。变量的输入顺序与所报告lm()的回归系数和p值无关summary(lm()),其中k级分类因子被编码为(k-1)个二进制虚拟变量,并且每个虚拟变量都报告了回归系数。

但是,可以像在ANOVA中期望的那样,lm()anova()(用R stats包中的小写字母“ a” 包装)输出,或Anova()总结每个因素对其所有水平的影响。然后因素排序会与物质anova()作为aov(),并不会没关系Anova()。同样,关于使用哪种方差分析的争议也会再次出现。因此,在lm()模型的所有下游使用中假设因子输入的顺序独立性是不安全的。


*在所有单元格中具有相等数量的观测值就足够了,但是据我所知,对于因子顺序无关紧要的情况,这不是必需的。要求不高的余额类型可以允许订单独立。


确实是的,观测数据是不平衡的,非常不平衡的。
Farrel

希望此评论在这里能得到解答:您说,在均衡的研究设计下,SS估计值将永远不会依赖于顺序,无论选择的方差分析类型(I,II,III型)如何。我不确定我是否理解这一点。在基于平衡数据的线性模型上使用R中的'anova'函数(使用I型测试),功能顺序肯定很重要,不是吗?
PejoPhylo

@PejoPhylo当数据平衡时,您可以进行正交设计。通过正交设计,有一种独特的方法可以在处理及其相互作用之间划分平方和,因此,处理进入的顺序与效果及其p值的估计无关。此页面提供了数学解释。这不是立即显而易见的。我刚刚链接的问题是该网站的声誉最高的成员提出的。数据不平衡会破坏正交性。
EdM

0

术语分层模型是指因素之间的结构。例如,一个多中心研究是分层的:您将患者嵌套在治疗他们的医院内。每家医院都用安慰剂和Verum治疗患者,但是由于医院对所有患者的共同治疗效果(甚至可能与实验药物产生相互作用),因此在A医院或B医院接受治疗的患者略有不同。因此,这称为分层效果。

现在您的切除方法可能是分层的:某种扁桃体切除方法是否可能略有不同(其本身尚未产生效果,因为这是您将要评估和测试的),这取决于先前在同一部位使用的腺样体切除方法是否合理?患者?如果是,则应在模型中指定它。

您对y〜a + b可能与y〜b + a不同的观察表明存在问题。加性效应会减缓,因此不应有任何差异(除了较小的数值差异)。手术方法的效果可能取决于统计学家以后指定效果的顺序,这既不合理也不令人希望。因此,您可能选择了错误的方法来馈送R数据。


1
我不确定我是否遵循最后一段。在不平衡阶乘方差分析中,通过类型I(顺序)平方和计算的每个因子的p值一定会取决于因子的顺序。我相信这是问题的全部重点。
变形虫说莫妮卡

我不确定@Farrel是否获得Type I SS。我记得我曾经观察到SAS由于在数据集和模型语句中进行了不同的排序而输出了不同的Type III SS。也许使用R也可能发生这种情况?
HorstGrünbusch'16

2
我不知道一个事实,鉴于五年前问过这个问题,他可能不记得自己了。但是我认为,这是迄今为止他对“模型y〜a + b与模型y〜b + a不同(或因此我在R中的实现似乎表明了这一点)不同”的字眼的最简洁的解释。aovR中的该命令默认使用Type I SS。当我提供悬赏时,我期望得到一个答案,解释不平衡的方差设计背后的问题,I / II / III型SS之间的差异以及有关线性回归是否存在相同问题的一些评论。
变形虫说恢复莫妮卡的

1
不可以。SSI / II / III之间没有区别时,即使平衡,设计矩阵也是单数形式。SS I / II / III仅在不平衡情况下有所不同,因为因素变为非正交的(与平衡情况不同)。以我的理解,这对应于具有相关预测变量的线性回归,这是一种非常普遍的情况。我的回答是,同样的问题也发生在回归中,只是考虑到所有其他预测变量的影响后,计算一个预测变量的p值是标准做法;这对应于方差分析中的III型SS。
变形虫说恢复莫妮卡的

1
关于ANOVA变量为了这些问题不断涌来,像这样一个从堆栈溢出昨天迁移。我认为可以肯定地认为,这个aov已有5年历史的问题基于而不是lm,并且可以回答@amoeba在5月12日14:31发表的评论中指出的类型,这一问题将有所帮助。
EdM
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.