R的lm()输出的解释


234

R中的帮助页面假定我知道这些数字的含义,但我不知道。我试图真正直观地理解这里的每个数字。我将只发布输出并对我发现的内容发表评论。可能(会)有错误,因为我只写我想像的东西。我主要想知道系数中的t值是什么意思,以及为什么它们会显示残留标准误差。

Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.09907 -0.23626 -0.01064  0.23345  1.17532 

这是残差的5点汇总(它们的平均值始终为0,对吧?)。可以使用这些数字(我在这里猜)来快速查看是否有任何较大的异常值。如果残差远离正态分布(它们应该是正态分布),您也已经在这里看到了。

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)       3.30843    0.06210  53.278  < 2e-16 ***
iris$Petal.Width -0.20936    0.04374  -4.786 4.07e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

估计,由最小二乘回归计算。此外,标准错误是。我想知道这是怎么计算的。我不知道t值和相应的p值从何而来。我知道应该是正态分布的,但是t值如何计算?βi^σβiβ^

Residual standard error: 0.407 on 148 degrees of freedom

1npϵTϵ我猜是。但是为什么我们要计算它,它告诉我们什么呢?

Multiple R-squared: 0.134,  Adjusted R-squared: 0.1282 

R2=sy^2sy2,即。如果这些点位于一条直线上,则该比率接近于1;如果它们是随机的,则比率为0。调整后的R平方是多少?i=1n(yi^y¯)2i=1n(yiy¯)2

F-statistic: 22.91 on 1 and 148 DF,  p-value: 4.073e-06 

F和p代表整个模型,不仅像之前的单个那样。F值为。它增长得越大,根本不起作用的可能性就越大。βisy^2ϵiβ


残差并没有严重偏离常态,您为什么这么认为呢?
nico 2010年

@nico:我想@Alexx Hardt的假设是。即一次可以使用五个数字汇总来查看残差是否偏离正常
Gavin Simpson 2010年

@Gavin Simpson:你是对的,我看错了这句话。忽略我先前的评论。
nico 2010年

9
次要问题:仅凭这5个分位数就无法说出正态或非正态。您可以基于该总结说的是估计的残差是否在零附近近似对称。您可以将报告的分位数除以估计的残留标准误差,然后将这些值与N(0,1)的各个分位数进行比较,但是查看QQ图可能更有意义。
fabians 2010年

5
此处需要注意的是:模型不是,而是。在下面的答案中正确描述了,但并未明确提及问题中的字符错误,因此可能不会有人注意到该差异。FSSmodel/SSerrorMSmodel/MSerrorF
gung

Answers:


202

五点总结

是的,我们的想法是快速给出发行摘要。关于平均值应该大致对称,中位数应该接近0,理想情况下1Q和3Q值应该大致相似。

系数和βi^s

模型中的每个系数都是高斯(正态)随机变量。所述是随机变量的分布的平均值的估计值,并且标准误差是分布的方差的平方根。它是估计中不确定性的度量。βi^βi^

您可以在Wikipedia上查看它们的计算方式(以及所使用的数学公式)。请注意,任何自重的统计程序都不会使用标准数学方程式来计算因为在计算机上进行计算可能会导致计算精度大大降低。βi^

t -statistics

所述统计估计()可以通过标准误差除以(),例如。假设您的对象与Q 具有相同的模型:tβi^σi^ti=βi^σi^mod

> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)

那么值R报告计算为:t

> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width 
  53.277950   -4.786461 

其中coef(mod)是,并给出了模型参数的协方差矩阵的对角元素,其是参数的标准误差的平方根()。βi^sqrt(diag(vcov(mod)))σi^

p值是达到的概率。如果零假设()为真,则等于或大于观察到的绝对t值,其中为。它们的计算公式为(从上方使用):|t|H0H0βi=0tstats

> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
 (Intercept)  Petal.Width 
1.835999e-98 4.073229e-06

因此,我们计算从分布获得的值的上尾概率,其中分布的自由度等于模型的剩余自由度。这表示获得的值大于观测到的 s 的绝对值的可能性。它乘以2,因为当然也可以在负方向上很大。ttttt

残留标准误差

残留标准误差是参数的估计值。在普通最小二乘中的假设是,残差分别由均值为0和标准偏差的高斯(正态)分布描述。的涉及常数方差假设; 每个残差具有相同的方差,并且该方差等于。σσσσ2

调整后的R2

调整后的计算如下:R2

1(1R2)n1np1

调整后的与相同,但针对模型的复杂性(即参数数量)进行了调整。给定一个具有单个参数且具有特定,如果我们向该模型添加另一个参数,即使添加的参数没有统计,新模型的也必须增加。调整后的通过在模型中包括参数数量来解决这一问题。R2R2R2R2R2

F t-统计

所述是二方差(之比)中,由在模型中的参数(回归分析,SSR的平方和)和剩余或不明原因的方差(误差总和的平方,SSE)解释的方差。如果我们通过以下方式获得该模型的ANOVA表,则可以更好地看到:FSSR/SSEanova()

> anova(mod)
Analysis of Variance Table

Response: Sepal.Width
             Df  Sum Sq Mean Sq F value    Pr(>F)    
Petal.Width   1  3.7945  3.7945   22.91 4.073e-06 ***
Residuals   148 24.5124  0.1656                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

该 s为在ANOVA输出和相同的输出。该列包含两个差异,并且。我们可以计算实现的概率大型的无影响的零假设下,从 -配送与1个148自由度。这是在ANOVA表的最后一栏中报告的内容。在单个连续预测变量的简单情况下(按照您的示例),,这就是为什么p值相同的原因。这种等效仅在这种简单情况下成立。Fsummary(mod)Mean Sq3.7945/0.1656=22.91FFF=tPetal.Width2


5
@Gavin(+1)很好的回应,加上精美的插图!
chl 2010年

2
不错的工作。关于计算t值,您可能需要澄清一件事:sqrt(diag(vcov(mod)))产生估计的SE。这些是模型摘要中输出的相同SE。只需说t =估计/估计即可更轻松,更清晰。从这个意义上讲,其他任何t值都没有什么不同。
Brett 2010年

2
(+1)太好了。我唯一要添加的是值与斜率的相同(这就是为什么p值相同)的原因。当然-对于多个解释变量,这不是正确的。Ft2

2
@杰伊; 谢谢。我也考虑过要提到等效性。不确定细节是否过多?我会在此上刊登广告。
加文·辛普森

2
“将不使用标准数学方程式进行计算”它们将使用什么?
SmallChess

0

Ronen Israel和Adrienne Ross(AQR)在此主题上写了一篇非常不错的论文:衡量因素暴露:使用和滥用

总结一下(请参阅:第8页),

  • 通常,越高,模型对投资组合收益的解释就越好。R2
  • 当t统计量大于2时,我们可以以95%的置信度(或5%的机率,我们错了)说出beta估计值在统计上不同于零。换句话说,我们可以说一个投资组合有一个重要因素。

R的lm()摘要计算p值Pr(>|t|)。p值越小,该系数越显着。P值= 0.05是合理的阈值。


6
本文中的错误陈述类型以“当t统计量大于2时,我们可以说(有5%的机会,我们错了),我们认为beta估计值在统计上不同于零”表示。 。11],将在stats.stackexchange.com/questions/311763stats.stackexchange.com/questions/26450上进行讨论。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.