方差分析与多元线性回归?为什么方差分析在实验研究中如此常用?


24

方差分析与多元线性回归?

我了解这两种方法似乎都使用相同的统计模型。但是,在什么情况下应该使用哪种方法?

比较这些方法的优缺点是什么?

为什么方差分析在实验研究中如此常用,而我却几乎找不到回归研究?


5
由于两者都使用相同的模型,因此使用哪个都无所谓。
彼得·弗洛姆

3
当我比较斜率(即连续的预测变量)时,我称其为回归;当我比较均值(即分类预测器变量)时,则称为方差分析。在实验研究中发现更多方差分析的原因是,它们大多是在比较均值或处理水平,例如,比较不同肥料对植物生长的影响。但是正如@PeterFlom已经说过的,它们都使用相同的模型,而使用哪种模型都没关系-唯一看起来不同的是它们给您的输出-根据您的问题,您要么想要“回归”输出,要么“方差分析”输出。
Stefan

2
嗯,但是您还可以通过伪编码在回归中包括分类预测变量?
弗洛里安

当然是!
Stefan

4
您的问题非常有效,并且已从不同的角度对CV进行了多次回答。这些测试的重复性质令人费解。说ANOVA =线性回归很容易,而且我确实认为到目前为止所做的所有评论都是有帮助的,而且切合实际,但现实情况则更加细微且难以理解,尤其是如果您将ANCOVA纳入了方差。检查其他条目,例如this。我是您的问题+1,尽管严格来讲,这是重复的问题。你能给个事吗?
Antoni Parellada

Answers:


22

有趣的是,差异在于变量的类型,尤其是解释变量的类型。在典型的方差分析中,我们有一个具有不同组分类变量,我们试图确定连续变量的度量在各组之间是否有所不同。另一方面,OLS通常被认为主要是试图评估连续回归或响应变量与一个或多个回归或解释变量之间的关系。从这个意义上讲,回归可以看作是一种不同的技术,可以根据回归线来预测值。

但是,这种差异并不代表方差分析可以扩展到其余方差分析汤(ANCOVA,MANOVA,MANCOVA);或在OLS回归中包含伪编码变量。我不清楚具体的历史地标,但似乎这两种技术都已经适应了日益复杂的模型。

例如,我们可以看到,ANCOVA带有虚拟(或分类)变量(在两种情况下均具有交互作用)的OLS之间的差异最多是美观的。请原谅我偏离您的问题的标题,涉及多元线性回归。

在这两种情况下,该模型与在R中使用lm函数执行ANCOVA的点基本上相同。但是,就回归模型中包含与因子(或类别)变量的第一级(或组)对应的截距的包含而言,它可以表示为不同。

在平衡模型(大小相等基,Ñ 1 2 i)和一个协变量(以简化矩阵表示),ANCOVA中的模型矩阵可能会遇到以下变化:n1,2,i

X=[1n100xn10001n200xn20001n300xn3]

对于组中的因子可变的,表示为块矩阵。3

这对应于线性模型:

α 相当于在ANOVA模型的不同组的装置,而不同的 β的是协变量的基团中的每一个的斜率。

y=αi+β1xn1+β2xn2+β3xn3+ϵi
αiβ

在回归字段中,特别是在R中,相同模型的表示考虑了与组之一相对应的整体截距,并且模型矩阵可以表示为:

X=[00000J3n,11n20x0xn2001n300xn3]

OLS方程式:

y=β0+μi+β1xn1+β2xn2+β3xn3+ϵi

在此模型中,整体截距在由每个组级别被修改μ ,并且基团也具有不同的斜率。β0μi

从模型矩阵可以看出,该演示掩盖了回归和方差分析之间的实际一致性。

我喜欢用一些代码行和R中我最喜欢的数据集mtcars来验证这一点。lm根据Ben Bolker 在此处提供的论文,我正在使用ANCOVA 。

mtcars$cyl <- as.factor(mtcars$cyl)         # Cylinders variable into factor w 3 levels
D <- mtcars  # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),]   # Ordering obs. for block matrices.

model.matrix(lm(mpg ~ wt * cyl, D))         # This is the model matrix for ANCOVA

至于使用哪种方法(用R回归!)的问题部分,您可能会发现我在写这篇文章时遇到的这个在线评论很有趣。


1
感谢您提供的非常有帮助的评论...在您链接的评论中引用:“当您不确定独立类别变量是否有任何影响时,请使用回归。当您要查看特定类别是否具有不同的影响时,请使用ANOVA。 。” 那么,有多少实验研究使用ANOVA?以我的理解,回归将是正确的选择。研究人员是否也深信这些影响是否存在并且仅在搜索上以统计学方式“证明”它们的方法?
弗洛里安(Florian)

您能否提供一个实际的示例,在该示例中应使用aov而不是回归并解释原因?谢谢您的宝贵时间。我也是一名受过训练的心理学家,除了可能更容易发表之外,没有看到Anova的优势。
弗洛里安

运气好的话?对于任何一种具体的启发式方法,无论哪种方法,我都会非常感兴趣,因此,如果您找到答案,请与我们分享。
Antoni Parellada

不幸的是,到目前为止,在我进入统计信息的过程中没有新发现……将使您保持工作状态,请多加投入。
弗洛里安

我在这里很难理解OLS模型矩阵和相应的方程式。我不明白零列来自哪里(矩阵的第5列)。另外,我认为等式应该与列相对应(即,mu_i仅适用于两个组,并且应包括x变量,而无需与组哑元进行交互)。进一步澄清非常感谢!
尼克

4

如果您的预测变量是分类的(从测试统计中得出的推断而言),则ANOVA和OLS回归在数学上是相同的。换句话说,方差分析是回归的特例。方差分析不能告诉您回归不能自行得出。相反,事实并非如此。方差分析不能用于具有连续变量的分析。这样,方差分析可以被归类为更有限的技术。但是,对于那些不太成熟的分析师而言,回归并不总是那么方便。例如,大多数ANOVA脚本会自动生成交互作用项,与回归一样,您通常必须自己使用软件手动计算这些项。在使用更强大的统计软件之前,ANOVA的广泛使用部分是统计分析的遗迹,在我看来,这是一种向经验不足的学生教授的更简单的技术,其目标是对表面有一定的了解,这将使他们能够使用基本的统计数据包分析数据。有时尝试一下...检查基本回归出现的t统计量,将其平方,然后将其与相同数据上ANOVA的F比率进行比较。相同!


这不是真的。
Michael R. Chernick

4
@MichaelChernick您能否详细说明在此答案中做出的许多断言中哪些是不正确的?尽管采取一些极端立场,但很难找到任何错误的立场。
whuber

我反对ANOVA和OLS回归在数学上相同的说法。我认识到,ANOVA可以看作是回归,可以看作是可以像回归一样表述的一般线性模型的一种形式。
Michael R. Chernick

在OLS情况下,除了输出外,它们又有何不同?基础模型相同,残差相同,它们产生的p值相同。输出是不同的。
dbwilson

2

我认为,ANOVA进行回归的主要好处在于输出。如果您对分类变量(因子)的统计显着性感兴趣,可以使用ANOVA为您提供此检验。进行回归分析时,类别变量由2个或多个虚拟变量表示,具体取决于类别的数量,因此您有2个或多个统计检验,每个检验将特定类别的平均值与空类别的平均值(或总体均值,具体取决于虚拟编码方法)。这些都不是有趣的。因此,您必须执行估计后分析(本质上是ANOVA),以对您感兴趣的因素进行整体测试。


实际上,这是不正确的。如果执行似然比检验,则将整个分类因子作为回归模型中的一个模块进行测试。
Dan Chaltiel

您的评论与我所说的不矛盾。您提到的似然比检验将是对因素的估计后分析,将具有该因素的模型与没有该因素的模型进行比较。
dbwilson

如果执行方差分析,您将获得“分类变量(因子)作为块”的p值,使用LRT的回归也是如此。回归可能会为您提供多个Beta,但不会执行比ANOVA多的测试,因此您的陈述“因此您有2个或更多统计测试”在我看来是错误的。为什么轻快铁比方差分析更“事后估算”?
Dan Chaltiel

1

线性回归的主要优点是,当各组样本量不相等时,它可以有效地克服方差同质性。另一个是,它便于包含多个协变量(不过,如果您只想包含一个协变量,也可以通过ANCOVA轻松实现)。在70年代,随着计算能力的发展,回归变得普遍。如果您特别感兴趣的是检查存在两个以上级别的分类变量的特定级别之间的差异,则回归会更方便(只要您在回归中设置了虚拟变量,以便这两个级别之一代表参考组)。


1
正如另一个答案中指出的那样,方差分析多元回归。
gung-恢复莫妮卡

谢谢,那么Anova有什么优势?为什么在回归模型上使用Anova / Ancova?
弗洛里安

我在这里有一个问题。为什么在解释ANCOVA的有效性时表示“仅一个协变量”?是因为您只能在ANCOVA中包含一个协变量吗?
凯文·康
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.