回归,t检验和方差分析如何显示一般线性模型的所有版本?


Answers:


47

考虑到它们都可以写成回归方程(也许与传统形式的解释略有不同)。

回归:

Y=β0+β1X(continuous)+εwhere εN(0,σ2)

t检验:

Y=β0+β1X(dummy code)+εwhere εN(0,σ2)

ANOVA:

Y=β0+β1X(dummy code)+εwhere εN(0,σ2)

XX01X

β00β1

Y=β0+β1X(dummy code 1)+β2X(dummy code 2)+εwhere εN(0,σ2)
gg10β0β1β2

根据下面的@whuber的评论,这些也可以通过矩阵方程表示: 表示,和是长度向量,是长度为的向量。现在是具有行和列的矩阵。在原型回归中,您有连续的变量和截距。因此,您的矩阵由一系列并列的列向量组成,每个

Y=Xβ+ε
ε Ñ β p + 1 X Ñ p + 1 p X X X 1YεNβp+1XN(p+1)pXXX变量,在截距的最左边有列。 1

如果您用这种方式用组表示ANOVA ,请记住,您将有虚拟变量指示组,而参考组由观察值指示,每个观察变量中都有。如上所述,您仍然会有拦截。因此,。 g 1 0 p = g 1gg10p=g1


1
只有将解释为向量并在右边乘以方差分析,方差分析方程才有意义(而不是t检验)。β1
ub

这些不是矩阵方程。我很少在这里使用它们,因为很多人不阅读它们。第一个方差分析代表与前面的t检验相同的情况。我只是指出,如果您可以运行2个样本的独立t检验,则可以运行与ANOVA相同的数据(许多人应该从统计101类中识别/记住)。我在下方添加了3组3组的ANOVA版本,以阐明2组情况并不是唯一可以理解为回归的ANOVA案例。但是reg方程现在看起来有所不同-我试图在上面保持更明确的相似性。
gung-恢复莫妮卡

我的观点是,除非您确实使它成为矩阵方程,否则您对ANOVA的描述太有限而无用:它 t检验的描述相同,因此比其有用的地方更加令人困惑。当您开始引入更多的组时,您突然改变了等式,这可能还不够清楚。当然,您是否要使用矩阵符号取决于您,但是为了保持良好的沟通,您应该努力保持一致性。
ub

您能否再解释一下如何从流行的t检验定义到所显示的方程式,基本上我无法弄清楚这里的Y是什么(它可能是天真或更少的统计智商)。但是,如何从t =(yx-u0)/ s到达此方程。
Gaurav Singhal

尽管您可能不熟悉,但事实并非如此。在所有列出的情况下,都是连续的(并且假定条件正常)。没有关于分布假设,它可以是连续的,二分的或多级分类变量。YX
gung-恢复莫妮卡

16

它们都可以写为一般线性模型的特殊情况。

t检验是ANOVA的两个样本。如果对t检验统计量求平方,则在ANOVA中将获得相应的F

ANOVA模型基本上只是一种回归模型,其中因子水平由虚拟(或指标)变量表示

因此,如果t检验模型是ANOVA模型的子集,而ANOVA是多元回归模型的子集,则回归本身(以及除回归以外的其他事物)是常规线性模型的子集,该模型将回归扩展为与通常的回归情况(“独立”和“等方差”)相比,误差项的定义更为笼统,并且对变量进行了多元化。Y


这是一个示例,显示了在R中完成的普通(等方差)两个样本分析和回归模型中的假设检验的等价关系(实际数据看起来是成对的,因此这实际上不是合适的分析) :t

> t.test(extra ~ group, var.equal=TRUE, data = sleep) 

    Two Sample t-test

data:  extra by group
t = -1.8608, df = 18, p-value = 0.07919   
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.363874  0.203874
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

请注意,上面的p值为0.079。这是方差分析的一种方法:

> summary(aov(extra~group,sleep))
            Df Sum Sq Mean Sq F value Pr(>F)  
group        1  12.48  12.482   3.463 0.0792 
Residuals   18  64.89   3.605                 

现在进行回归:

> summary(lm(extra ~ group, data = sleep))

(某些输出已删除)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)   0.7500     0.6004   1.249   0.2276  
group2        1.5800     0.8491   1.861   0.0792 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared:  0.1613,    Adjusted R-squared:  0.1147 
F-statistic: 3.463 on 1 and 18 DF,  p-value: 0.07919

比较“ group2”行中的p值,并比较最后一行中F检验的p值。对于双尾测试,它们是相同的,并且都与t检验结果匹配。

此外,“ group2”的系数表示两组的均值之差。


在所有三种情况下都具有相同的p值是神奇而令人印象深刻的,但是,如果您能进一步解释这些p值的计算方式,那么肯定会使这个答案更有趣。我不知道显示p值计算是否也会使它更有,所以您可以决定。
Gaurav Singhal

@Gaurav p值相同,因为您正在同一模型上测试相同的假设,只是表示形式略有不同。如果您对某些特定的p值的计算方式感兴趣,那么它将是一个新问题(此处不是该问题的答案)。尽管可以先尝试搜索,但您可以随意提出这样的问题,因为它可能已经回答了。
Glen_b

感谢@Glen_b,很抱歉提出了一个明显的问题,但这也不是最好的方法。您仍然回答了我的问题-“相同模型(和/或数据)的假设相同”。对于它们如何检验相同的假设,我没有给出足够的思考。谢谢
Gaurav Singhal

2

我之前发布的答案有些相关,但是这个问题有些不同。

您可能需要考虑以下线性模型之间的差异和相似之处:

[Y1Yn]=[1x11x21x31xn][α0α1]+[ε1εn]
[Y1Yn]=[10001000010001000010][α0αk]+[ε1εn]

2
对问题的一些描述和评论对读者很有用,因为现在他们不得不猜测它们来自何处以及它们与问题的关系...
蒂姆

0

在处理之间方差未知但均等的假设下,方差分析类似于均值的t检验。这是因为在ANOVA中,MSE与t检验中使用的合并方差相同。t检验还有其他版本,例如用于不等方差和成对t检验的版本。从这个角度来看,t检验可以更加灵活。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.