线性回归中误差的方差-协方差矩阵


12

实际上,统计分析软件包如何计算var / cov误差矩阵?

从理论上我很清楚这个想法。但实际上没有。我的意思是,如果我有一个随机变量向量,我知道方差/协方差矩阵将得到均值偏差向量的外部乘积:。ΣX=(X1,X2,,Xn)ΣΣ=E[(XE(X))(XE(X))]

但是当我有一个样本时,我观察到的误差不是随机变量。甚至更好,但只有在我从相同人群中抽取了多个相同样本的情况下才可以。否则,他们被给予。因此,我的问题再次是:一个统计软件包如何从研究人员提供的观察结果列表(即样本)开始生成var / cov矩阵?


您观察的误差是随机变量(y)的函数,因此它们本身是随机的。仅以X为条件,不会给出它们。
user603 2013年

1
是的,我完全同意。但是你所说的在理论上是行得通的。如果我从同一总体中抽取100个大小相同的随机样本,则每个观察误差将是一个随机变量,其值为(0,sigma ^ 2)。如果我只画一个样本怎么办?在这种情况下,每个观测值的误差的平均值就是误差本身。我说的清楚吗?因此,我想了解的是,像Stata这样的软件包如何仅使用从总体中抽取的一个样本来计算方差-协方差矩阵?
Riccardo 2013年

Answers:


7

类型的模型的协方差矩阵通常计算为,其中是残差平方和,而是自由度(通常是观察数减去参数数)。X X - 1 σ 2y=Xβ+ϵ σ2σ2=Σÿ-X β2d

(XtX)1σ2d
σ2σ2=i(yiXiβ^)2d

对于健壮的和/或成群的标准错误,乘积会稍作修改。还可能存在其他方法来计算协方差矩阵,例如,如对外部乘积的期望所建议的那样。XtX


3
  1. OLS估计所述的误差方差,:σ2

s2=ε^ε^np

朱利安·J·法拉威(Julian J. Faraway)撰写的《使用R的实践回归和方差分析》(第21页 )中包括了这一点。

根据mtcars数据库中包含的多个汽车模型规格回归的每加仑英里数的线性模型,在R中进行计算的示例ols = lm(mpg ~ disp + drat + wt, mtcars)。这些是手动计算以及lm()函数的输出:

> rdf = nrow(X) - ncol(X)                    # Residual degrees of freedom
> s.sq = as.vector((t(ols$residuals) %*% ols$residuals) / rdf) 
>                                            # s square (OLS estimate of sigma square)
> (sigma = sqrt(s.sq))                       # Residual standar error
[1] 2.950507
> summary(ols)

Call:
lm(formula = mpg ~ disp + drat + wt, data = mtcars)
...
Residual standard error: 2.951 on 28 degrees of freedom
  1. 方差-估计系数的协方差矩阵,:β^

Var[β^X]=σ2(XX)1

估计在此在线文档的第8页

Var^[β^X]=s2(XX)1
> X = model.matrix(ols)                             # Model matrix X
> XtX = t(X) %*% X                                  # X transpose X
> Sigma = solve(XtX) * s.sq                         # Variance - covariance matrix
> all.equal(Sigma, vcov(ols))                       # Same as built-in formula
[1] TRUE
> sqrt(diag(Sigma))                                 # Calculated Std. Errors of coef's
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 
> summary(ols)[[4]][,2]                             # Output of lm() function
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 

2

通过线性回归,我们拟合模型。是因变量,是预测变量(解释性变量)。我们使用提供给我们的数据(训练集或样本)来估计总体。在的不被认为是随机变量。由于误差分量,是随机的。ÿ X β X ÿY=βX+εYXβXY


嗨,拉吉夫,谢谢你的纠正。那么,您能否解释从Y(和epsilon)开始的Stata(或其他任何统计数据包)如何成功推导方差-协方差矩阵Sigma?
Riccardo 2013年

e^e^

同意user603。请检查cran.r-project.org/doc/contrib/Faraway-PRA.pdf的第21页。这基于R,但是对线性回归背后的理论进行了很好的讨论。
Rajiv Sambasivan

大家好,谢谢,首先。我也同意您的看法,user603,我期待着这个答案。但是,如果通过计算误差向量的外部乘积来计算var / cov矩阵,则这意味着在大多数情况下误差分量之间的cov不会为零,因为独立性假设就暗示了这一点。对?这就是我所怀疑的。拉吉夫,我调查了您提出的指导,但找不到答案。预先感谢您以后的任何答复。
Riccardo 2013年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.