R:方差分析和线性回归


9

我是统计学的新手,我试图了解ANOVA和线性回归之间的区别。我正在使用R进行探索。我阅读了许多有关为何方差分析和回归分析为何不同但仍然相同以及如何可视化等方面的文章。我认为我的确很不错,但仍然缺少一点。

我了解到,方差分析将组内的方差与组间的方差进行比较,以确定任何测试组之间是否存在差异。(https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA

对于线性回归,我在该论坛上找到了一篇帖子,其中说到当我们测试b(斜率)= 0时,也可以进行测试

对于两个以上的小组,我发现一个网站指出:

零假设是:H0:µ1=µ2=µ3

线性回归模型为:y=b0+b1X1+b2X2+Ë

但是,线性回归的输出是一组的截距,其他两组的截距之差。(http://www.real-statistics.com/multiple-regression/anova-using-regression/

对我来说,这看起来像是实际上比较了截距,而不是斜率?

在这里可以找到截距而不是斜率的另一个示例:(http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/

我现在正在努力了解线性回归中实际比较的是什么?斜坡,拦截或两者兼而有之?


Answers:


16

看起来实际上是比较截距,而不是斜率?

您在这里的困惑涉及这样一个事实,您必须非常小心,以清楚了解所指的截距和斜率(截取什么?斜率是什么?)。

0-1虚拟变量的系数在回归中的作用既可以看作是斜率,也可以看作是截距的差。

让我们通过考虑两个样本的情况来尽可能简化事情。

我们仍然可以对两个样本进行单向方差分析,但事实证明它与两尾两样本t检验(等方差情况)基本相同。

这是人口状况的图表:

两组均值作为回归,人口状况

如果,则总体线性模型为δ=μ2-μ1个

ÿ=μ1个+δX+Ë

因此,当(这是我们在组1中的情况),的平均值是而当(当我们在组2中时) ,的平均值为。X=0ÿμ1个+δ×0=μ1个X=1个ÿμ1个+δ×1个=μ1个+μ2-μ1个=μ2

那就是斜率的系数(在这种情况下为),均值之差(您可能会认为这些均值是截距)是相同的数量。δ

为了帮助具体,这里有两个示例:

Group1:  9.5  9.8 11.8
Group2: 11.0 13.4 12.5 13.9

他们看起来如何?

样地

手段差异的检验是什么样的?

作为t检验:

    Two Sample t-test

data:  values by group
t = -5.0375, df = 5, p-value = 0.003976
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -4.530882 -1.469118
sample estimates:
mean in group g1 mean in group g2 
             9.9             12.9 

作为回归:

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   9.9000     0.4502  21.991 3.61e-06 ***
groupg2       3.0000     0.5955   5.037  0.00398 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 0.7797 on 5 degrees of freedom
Multiple R-squared:  0.8354,    Adjusted R-squared:  0.8025 
F-statistic: 25.38 on 1 and 5 DF,  p-value: 0.003976

从回归中我们可以看到,截距项是组1的均值,而组g2系数(“斜率”系数)是组均值的差。同时,回归的p值与t检验的p值相同(0.003976)


非常感谢您提供了这个非常有用的示例。我只是意识到仍然有一个未解决的问题。我不明白为什么将斜率表示为μ2-−1?斜率不是定义为m = delta Y / delta X吗?
Paul

2
是的 但ΔX=1个-0=1个Δÿ=μ1个+δ×1个-μ1个+δ×0=δ=μ2-μ1个 所以 Δÿ/ΔX=μ2-μ1个/1个=μ2-μ1个。简而言之,当您编码为0/1时,斜率就是差。
Glen_b-恢复莫妮卡

+1为什么斜率等于差的图形说明对我有很大帮助!
海涛杜
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.