如何得出多元线性回归的最小二乘估计?


30

在简单线性回归的情况下,您可以得出最小二乘估计量这样您就不必知道即可估算β 1 = Σ X - ˉ XÝ - ˉ ÿy=β0+β1xβ 0 β 1β^1=(xix¯)(yiy¯)(xix¯)2β^0β^1

假设我有,我怎么得到而不估计\帽子\ beta_2?还是不可能?β 1 β 2y=β1x1+β2x2β^1β^2


1
您可以忽略其中一个变量,但如果它们是独立的,则仍可获得其他变量的无偏估计。
david25272 2014年

Answers:


51

矩阵符号的推导

y=Xb+ϵ,实际上与

[y1y2yN]=[x11x12x1Kx21x22x2KxN1xN2xNK][b1b2bK]+[ϵ1ϵ2ϵN]

一切都归结为最小化ee

ϵϵ=[e1e2eN][e1e2eN]=i=1Nei2

因此,最小化ee给我们:

一世ñb ËË=ÿ-Xbÿ-Xb

一世ñb ËË=ÿÿ-2bXÿ+bXXb

ËËb=-2Xÿ+2XXb=0

XXb=Xÿ

b=XX-1个Xÿ

最后一个数学问题,即最小二阶条件要求矩阵是正定的。如果具有最高等级,则满足此要求。XXX

可以在http://economictheoryblog.com/2015/02/19/ols_estimator/下找到更精确的推导,该推导贯穿于更大的部门中的所有步骤。


3
这个推导正是我要寻找的。没有跳过的步骤。令人惊讶的是很难找到相同的东西。
javadba

1
在矩阵方程中,第二个不应该*是a +吗?另外,是否尺寸匹配是而不是?b Nbķbñ
Alexis Olson

亚历克西斯·奥尔森,你是对的!我编辑了答案。
安德里亚斯·迪比亚西

13

可以在多元回归中仅估算一个系数而无需估算其他系数。

通过从其他变量中去除的影响,然后将的残差相对于的残差进行回归,可以得出的估计值。对此进行了解释和说明,一个控件如何精确控制其他变量?以及如何规范化(a)回归系数?。这种方法的优点在于,它不需要演算,不需要线性代数,仅需使用二维几何图形即可可视化,并且数值稳定,并且仅利用多元回归的一个基本概念:取出(或“控制”) )单个变量的影响。X 2 ÿ X 1β1个X2ÿX1个


在当前情况下,可以使用三个普通的回归步骤来完成多元回归:

  1. 使回归(数项!)。设拟合为。估计为 因此,残差为 从几何学上讲,是在投影到上后剩下的。X 2 Ŷ = α ÿ 2 X 2 + δ α Ý 2 = Σ ÿ X 2 ÿX2y=αy,2x2+δδ=ÿ-αÿ2X2δÿX2

    αy,2=iyix2iix2i2.
    δ=yαy,2x2.
    δyx2
  2. 使在上回归(数项)。设拟合为。估计值为残差为从几何上讲,是减去在上的投影后剩下的x。x 2 x 1x1x2α 1 2 = Σ X 1 X 2 x1=α1,2x2+γγ = X 1 - α 1 2 X 2γ X 1 X 2

    α1个2=一世X1个一世X2一世一世X2一世2
    γ=X1个-α1个2X2
    γX1个X2
  3. 在上使回归(无常数项)。估计值为适合度为。几何学上,是的部件(其表示与在取出)方向(其表示与取出)。γ β 1 = Σ δ γ δγδ= β 1γ+ ε

    β^1个=一世δ一世γ一世一世γ一世2
    δ=β^1个γ+ε δ ý X 2 γ X 1 X 2β^1个δÿX2γX1个X2

请注意,尚未估算。β2 它可以轻松地从什么迄今(就像得到恢复在普通的回归情况下,很容易从斜率估计得到)。该是的二元回归残差上与。ββ 1 ε ÿ X 1 X 2β^0β^1个εÿX1个X2

与普通回归的相似之处很强:步骤(1)和(2)是在常规公式中减去均值的类似物。如果让为1的向量,则实际上您将恢复通常的公式。X2

这以明显的方式概括为使用两个以上的变量进行回归:分别估计,对所有其他变量分别进行和回归,然后将其残差彼此进行回归。在这一点上没有任何其它系数在的多元回归尚未估计。ŸX1个ÿβ^1个ÿX1个ÿ


1
伟大的答案,这里是一个普遍定理en.wikipedia.org/wiki/...
JohnK

4

的普通最小二乘估计是响应变量的线性函数β。简而言之,可以仅使用因变量()和自变量()来写系数的OLS估计值。ÿ X ķ βÿ一世Xķ一世

要为一般回归模型解释这一事实,您需要了解一些线性代数。假设您想估算多元回归模型中的系数,β0β1个βķ

ÿ一世=β0+β1个X1个一世++βķXķ一世+ϵ一世

其中为。设计矩阵是一个矩阵,其中每列包含第因变量的观测值。您可以在此处找到用于计算估算系数的公式的许多解释和推导,这是= 1 Ñ X Ñ × ķ Ñ ķ ħ X ķ β = βϵ一世一世一世dñ0σ2)i=1,...,nXn×knkthXkβ^=(β^0,β^1,...,β^k)

β^=(XX)1XY

假设存在逆。估计系数是数据的函数,而不是其他估计系数。(XX)1个


我有一个后续问题,在简单的回归案例中,您使然后变成的矩阵和,然后遵循。我该如何重写方程式? X 1 1 X 1 - ˉ XX Ñyi=β0+β1x¯+β1(xix¯)+eiX(1,...,1)β = X ' X - 1(x1x¯,...,xnx¯)β^=(XX)(1)XY
Sabre CN

还有一个问题,这是否适用于和不是线性但模型仍然是线性的情况?例如,衰减曲线,我可以用和代替指数,这成为我的原始问题吗?X 2 Ŷ = β 1个Ë X 1 + β 2 ë X 2 X ' 1 X ' 2x1x2y=β1ex1t+β2ex2tx1x2
Sabre CN

在您的第一条评论中,您可以将变量居中(从变量中减去平均值)并使用它作为您的自变量。搜索“标准化回归”。您根据矩阵编写的公式不正确。对于第二个问题,是的,您可以这样做,线性模型是在线性的模型,只要等于的线性组合,就可以了。ÿ ββÿβ
caburke 2012年

2
(+1)。但是,它不应该是“矩阵”而不是吗?k × nn×kk×n
miura 2012年

3

关于理论与实践的一小部分说明。数学上可以使用以下公式估算:β0β1个β2βñ

β^=XX-1个Xÿ

其中是原始输入数据,是我们要估计的变量。这是从最小化错误开始的。在提出一点实际观点之前,我将对此加以证明。ÿXÿ

令为线性回归在点处产生的误差。然后:Ë一世一世

Ë一世=ÿ一世-ÿ一世^

现在我们得出的总平方误差为:

一世=1个ñË一世2=一世=1个ñÿ一世-ÿ一世^2

因为我们有一个线性模型,所以我们知道:

yi^=β0+β1x1,i+β2x2,i+...+βnxn,i

可以用矩阵符号重写为:

Y^=Xβ

我们知道

i=1nei2=EE

我们希望使总平方误差最小,以便以下表达式应尽可能小

EE=(YY^)(YY^)

这等于:

EE=(YXβ)(YXβ)

重写似乎令人困惑,但它遵循线性代数。请注意,在某些方面将它们相乘时,矩阵的行为类似于变量。

我们希望找到的值,以使该表达式尽可能小。我们将需要微分并将导数设置为零。我们在这里使用链式规则。β

dEEdβ=2XY+2XXβ=0

这给出:

XXβ=XY

这样最终:

β=(XX)1XY

因此,从数学上讲,我们似乎已经找到了解决方案。但是,存在一个问题,即如果矩阵非常大,则很难计算。这可能会产生数值精度问题。在这种情况下找到最佳值的另一种方法是使用梯度下降类型的方法。我们要优化的函数是无界的和凸的,因此如果需要,我们在实践中也将使用渐变方法。 X β(XX)1Xβ


除了您实际上不需要计算 ...(XX)1
user603 2012年

有效点。也可以使用gram schmidt过程,但是我只想指出,由于凸度,矢量的最佳值也可以通过数值完成。β
Vincent Warmerdam

2

只需使用LR的几何解释即可完成简单的推导。

线性回归可以解释为在列空间上的投影。因此,误差与的列空间正交。 X ε XYXϵ^X

因此,与误差之间的内积必须为0,即 X

<X,yXβ^>=0

XyXXβ^=0

Xy=XXβ^

这意味着

(XX)1Xy=β^

现在可以通过以下方法完成此操作:

(1)将投射到(错误),,X 2 δ = ý - X 2 d d = X ' 2 X 2 YX2δ=YX2D^D^=(X2X2)1X2y

(2)将投影到(错误),,X1X2γ=X1X2G^G^=(X1X1)1X1X2

最后,

(3)将投影到,δγβ^1

在此处输入图片说明

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.