方差分析与多元线性回归?
我了解这两种方法似乎都使用相同的统计模型。但是,在什么情况下应该使用哪种方法?
比较这些方法的优缺点是什么?
为什么方差分析在实验研究中如此常用,而我却几乎找不到回归研究?
方差分析与多元线性回归?
我了解这两种方法似乎都使用相同的统计模型。但是,在什么情况下应该使用哪种方法?
比较这些方法的优缺点是什么?
为什么方差分析在实验研究中如此常用,而我却几乎找不到回归研究?
Answers:
有趣的是,差异在于变量的类型,尤其是解释变量的类型。在典型的方差分析中,我们有一个具有不同组的分类变量,我们试图确定连续变量的度量在各组之间是否有所不同。另一方面,OLS通常被认为主要是试图评估连续回归或响应变量与一个或多个回归或解释变量之间的关系。从这个意义上讲,回归可以看作是一种不同的技术,可以根据回归线来预测值。
但是,这种差异并不代表方差分析可以扩展到其余方差分析汤(ANCOVA,MANOVA,MANCOVA);或在OLS回归中包含伪编码变量。我不清楚具体的历史地标,但似乎这两种技术都已经适应了日益复杂的模型。
例如,我们可以看到,ANCOVA与带有虚拟(或分类)变量(在两种情况下均具有交互作用)的OLS之间的差异最多是美观的。请原谅我偏离您的问题的标题,涉及多元线性回归。
在这两种情况下,该模型与在R中使用lm
函数执行ANCOVA的点基本上相同。但是,就回归模型中包含与因子(或类别)变量的第一级(或组)对应的截距的包含而言,它可以表示为不同。
在平衡模型(大小相等基,Ñ 1 ,2 ,⋯)和一个协变量(以简化矩阵表示),ANCOVA中的模型矩阵可能会遇到以下变化:
对于组中的因子可变的,表示为块矩阵。
这对应于线性模型:
与 α 我相当于在ANOVA模型的不同组的装置,而不同的 β的是协变量的基团中的每一个的斜率。
在回归字段中,特别是在R中,相同模型的表示考虑了与组之一相对应的整体截距,并且模型矩阵可以表示为:
OLS方程式:
。
在此模型中,整体截距在由每个组级别被修改μ 我,并且基团也具有不同的斜率。
从模型矩阵可以看出,该演示掩盖了回归和方差分析之间的实际一致性。
我喜欢用一些代码行和R中我最喜欢的数据集mtcars
来验证这一点。lm
根据Ben Bolker 在此处提供的论文,我正在使用ANCOVA 。
mtcars$cyl <- as.factor(mtcars$cyl) # Cylinders variable into factor w 3 levels
D <- mtcars # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),] # Ordering obs. for block matrices.
model.matrix(lm(mpg ~ wt * cyl, D)) # This is the model matrix for ANCOVA
至于使用哪种方法(用R回归!)的问题部分,您可能会发现我在写这篇文章时遇到的这个在线评论很有趣。
如果您的预测变量是分类的(从测试统计中得出的推断而言),则ANOVA和OLS回归在数学上是相同的。换句话说,方差分析是回归的特例。方差分析不能告诉您回归不能自行得出。相反,事实并非如此。方差分析不能用于具有连续变量的分析。这样,方差分析可以被归类为更有限的技术。但是,对于那些不太成熟的分析师而言,回归并不总是那么方便。例如,大多数ANOVA脚本会自动生成交互作用项,与回归一样,您通常必须自己使用软件手动计算这些项。在使用更强大的统计软件之前,ANOVA的广泛使用部分是统计分析的遗迹,在我看来,这是一种向经验不足的学生教授的更简单的技术,其目标是对表面有一定的了解,这将使他们能够使用基本的统计数据包分析数据。有时尝试一下...检查基本回归出现的t统计量,将其平方,然后将其与相同数据上ANOVA的F比率进行比较。相同!
我认为,ANOVA进行回归的主要好处在于输出。如果您对分类变量(因子)的统计显着性感兴趣,可以使用ANOVA为您提供此检验。进行回归分析时,类别变量由2个或多个虚拟变量表示,具体取决于类别的数量,因此您有2个或多个统计检验,每个检验将特定类别的平均值与空类别的平均值(或总体均值,具体取决于虚拟编码方法)。这些都不是有趣的。因此,您必须执行估计后分析(本质上是ANOVA),以对您感兴趣的因素进行整体测试。
线性回归的主要优点是,当各组样本量不相等时,它可以有效地克服方差同质性。另一个是,它便于包含多个协变量(不过,如果您只想包含一个协变量,也可以通过ANCOVA轻松实现)。在70年代,随着计算能力的发展,回归变得普遍。如果您特别感兴趣的是检查存在两个以上级别的分类变量的特定级别之间的差异,则回归会更方便(只要您在回归中设置了虚拟变量,以便这两个级别之一代表参考组)。