如何在线性回归中解释系数标准误差?


26

我想知道在R中使用显示功能时如何解释回归的系数标准误。

例如,在以下输出中:

lm(formula = y ~ x1 + x2, data = sub.pyth)
        coef.est coef.se
(Intercept) 1.32     0.39   
x1          0.51     0.05   
x2          0.81     0.02   

n = 40, k = 3
residual sd = 0.90, R-Squared = 0.97

更高的标准误差是否意味着更大的意义?

同样对于残留标准偏差,较高的值表示较大的扩展,但是R平方显示出非常接近的拟合度,这不是矛盾吗?

Answers:


52

参数估计值(例如样本均值或OLS回归系数)是样本统计信息,我们可用来得出有关相应总体参数的推论。人口参数是我们真正关心的,但是由于我们无法访问整个人口(通常假定为无限),因此必须改用这种方法。但是,这种方法会带来一些令人不舒服的事实。例如,如果我们再取一个样本,然后计算统计量以再次估计该参数,我们几乎肯定会发现它有所不同。而且,两个估计都不可能完全符合我们想要知道的真实参数值。实际上,如果我们一遍又一遍地进行下去,并继续进行永远的采样和估算,我们会发现不同估计值的相对频率遵循概率分布。中心极限定理表明该分布很可能是正态分布。我们需要一种量化该分布中不确定性量的方法。这就是标准错误为您执行的操作。

在您的示例中,您想知道总体中x1和y之间的线性关系的斜率,但是您只能访问样本。在您的样本中,该斜率是0.51,但是在不知道其对应的采样分布中有多少可变性的情况下,很难知道该数字的大小。在这种情况下,标准误差.05是该采样分布的标准偏差。要计算显着性,可以将估算值除以SE,然后在表上查找商。因此,较大的SE意味着较低的重要性。

残留标准偏差与斜率的采样分布无关。它只是您的样品在模型上的标准偏差。没有矛盾,也没有矛盾。至于如何使用R ^ 2高且只有40个数据点的较大SD,我想您会遇到范围限制的反面-您的x值分布非常广泛。


优秀且非常明确的答案!因此,基本上对于第二个问题,SD表示水平色散,R ^ 2表示整体拟合或垂直色散?
2011年

7
@Dbr,很高兴能为您提供帮助。通常我们认为响应变量在垂直轴上,而预测变量在水平轴上。使用此设置,一切都是垂直的-回归使预测和响应变量(SSE)之间的垂直距离最小化。同样,在考虑了预测值之后,残留SD是垂直分散的度量。最后,R ^ 2是预测的垂直离散度与原始数据的总垂直离散度之比。
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.