有没有一种方法可以使用协方差矩阵来找到用于多元回归的系数？

对于简单的线性回归，可以直接从方差-协方差矩阵 $C$ ，回归系数。

\frac{C_{d, e}}{C_{e, e}}

$C_{d, e}\over C_{e,e}$ 其中

d

$d$ 是因变量的指数，和

e

$e$ 是解释变量的指数。

如果只有协方差矩阵，是否可以为具有多个解释变量的模型计算系数？

ETA：对于双解释变量，看来和类似地用于。我没有立即看到如何将其扩展到三个或更多变量。

β_{1} = \frac{C o v (y, x_{1}) v a r (x_{2}) - C o v (y, x_{2}) C o v (x_{1}, x_{2})}{v a r (x_{1}) v a r (x_{2}) - C o v (x_{1}, x_{2})^{2}}

$\beta_1 = \frac{Cov(y,x_1)var(x_2) - Cov(y,x_2)Cov(x_1,x_2)}{var(x_1)var(x_2) - Cov(x_1,x_2)^2}$

β_{2}

$\beta_2$

regression regression-coefficients covariance-matrix

— 大卫
source

系数向量

是解决

。一些代数运算表明，这实际上与您在2系数情况下给出的公式相同。在这里很好地布置：stat.purdue.edu/~jennings/stat514/stat512notes/topic3.pdf。不确定是否有帮助。但是我敢猜测，根据该公式，这通常是不可能的。

\hat{β}

$\hat{\beta}$

X^{'} Y = (X^{'} X)^{- 1} β

$X'Y=(X'X)^{-1}\beta$

— shadowtalker

@David您是否知道如何将其扩展到任意数量的解释变量（超过2）？我需要表达。

— 简·韦恩

@JaneWayne我不确定我是否理解您的问题：whuber以矩阵形式

C^{- 1} (Cov (X_{i}, y))^{'}

$C^{-1}(\text{Cov}(X_i, y))^\prime$

— David

是的，我研究了它，他是对的。

— 简·韦恩

是的，假设模型中包括截距（常数）项，则所有变量（解释性和响应性）的协方差矩阵都包含查找所有系数所需的信息。（尽管协方差不提供有关常数项的信息，但可以从数据的平均值中找到它。）

分析

假设解释变量的数据按维列向量排列，响应变量为列向量，这被视为是随机变量的实现。普通最小二乘估计模型系数 $n$ $x_1, x_2, \ldots, x_p$ $y$ $Y$ $\hat\beta$

E (Y) = α + X β

$\mathbb{E}(Y) = \alpha + X\beta$

通过组装，获得的列向量为 $p+1$ $X_0 = (1, 1, \ldots, 1)^\prime, X_1, \ldots, X_p$ 阵列和求解线性方程系统 $n \times p+1$ $X$

X^{'} X \hat{β} = X^{'} y .

$X^\prime X \hat\beta = X^\prime y.$

相当于系统

\frac{1}{n} X^{'} X \hat{β} = \frac{1}{n} X^{'} y .

$\frac{1}{n}X^\prime X \hat\beta = \frac{1}{n}X^\prime y.$

高斯消除将解决该系统。它通过邻接矩阵 $p+1\times p+1$ 和维矢量 $\frac{1}{n}X^\prime X$ $p+1$ 成阵列和行减少它。 $\frac{1}{n}X^\prime y$ $p+1 \times p+2$ $A$

第一步将检查 $\frac{1}{n}(X^\prime X)_{11} = \frac{1}{n}X_0^\prime X_0 = 1$ 。发现这是非零的，它将继续从剩余的行中减去的第一行的适当倍数，以便将其第一列中的剩余条目清零。这些倍数将是 $A$ 并从条目减去的数字将等于。这只是和的协方差的公式。此外，位置中剩余的数字等于 $\frac{1}{n}X_0^\prime X_i = \overline X_i$ $A_{i+1,j+1} = X_i^\prime X_j$ $\overline X_i \overline X_j$ $X_i$ $X_j$ $i+1, p+2$ ，协方差与。 $\frac{1}{n}X_i^\prime y - \overline{X_i}\overline{y}$ $X_i$ $y$

因此，在高斯消除的第一步之后，系统简化为求解

C \hat{β} = (Cov (X_{i}, y))^{'}

$C\hat{\beta} = (\text{Cov}(X_i, y))^\prime$

显然，由于所有系数都是协方差，因此可以从所有变量的协方差矩阵中找到解。

（当是可逆的溶液可以写成。在这个问题给出的公式是这个特殊情况下，当和写出这些公式明确地将。随着增长，它变得越来越复杂。而且，它们不如数值计算，最好通过求解方程组而不是对矩阵求逆来实现。 $C$ $C^{-1}(\text{Cov}(X_i, y))^\prime$ $p=1$ $p=2$ $p$ $C$

$y$ $X\hat{\beta}$

例

为了说明这一点，下面的R代码创建一些数据，计算它们的协方差，并仅从该信息中获得最小二乘系数估计。它将它们与从最小二乘估计器获得的估计值进行比较lm。

#
# 1. Generate some data.
#
n <- 10        # Data set size
p <- 2         # Number of regressors
set.seed(17)
z <- matrix(rnorm(n*(p+1)), nrow=n, dimnames=list(NULL, paste0("x", 1:(p+1))))
y <- z[, p+1]
x <- z[, -(p+1), drop=FALSE]; 
#
# 2. Find the OLS coefficients from the covariances only.
#
a <- cov(x)
b <- cov(x,y)
beta.hat <- solve(a, b)[, 1]  # Coefficients from the covariance matrix
#
# 2a. Find the intercept from the means and coefficients.
#
y.bar <- mean(y)
x.bar <- colMeans(x)
intercept <- y.bar - x.bar %*% beta.hat

输出显示两种方法之间的一致性：

(rbind(`From covariances` = c(`(Intercept)`=intercept, beta.hat),
       `From data via OLS` = coef(lm(y ~ x))))

                  (Intercept)        x1        x2
From covariances     0.946155 -0.424551 -1.006675
From data via OLS    0.946155 -0.424551 -1.006675

— ub
source

谢谢，@ whuber！这正是我一直在寻找的东西，我萎缩的大脑无法触及。顺便说一句，这个问题的动机是由于种种原因，我们基本上没有充分

X

$X$ 可用，但从cov(z)以前的计算中得出。

— 大卫

这样的答案提高了这个交叉验证的标准

— jpmuc

@whuber在你的榜样，您计算在拦截y和x和beta.hat。该y和x是原始数据的一部分。是否可以从协方差矩阵和均值中得出截距？您能提供一下符号吗？

— 简·韦恩

@简只有手段

\bar{X}

$\bar X$ ，申请

\hat{β}

$\hat \beta$ 给他们：

\bar{X} \hat{β} = \bar{X \hat{β}} 。

$\overline X \hat\beta = \overline{X \hat\beta}.$ 我更改了代码以反映这一点。

— ub

该代码非常有用+1

— Michael