线性回归系数估计的解析解


9

我试图理解矩阵符号,并使用向量和矩阵。

现在,我想了解如何计算多元回归中的系数估计向量。β^

基本方程似乎是

ddβ(yXβ)(yXβ)=0.

现在如何在这里求解向量β

编辑:等等,我被卡住了。我现在在这里,不知道如何继续:

ddβ((y1y2yn)(1x11x12x1p1x21x22x2p1xn1xn2xnp)(β0β1βp))((y1y2yn)(1x11x12x1p1x21x22x2p1xn1xn2xnp)(β0β1βp))

ddβi=1n(yi(1xi1xi2xip)(β0β1βp))2

与对于所有是截距:xi0=1i

ddβi=1n(yik=0pxikβk)2

你能为我指出正确的方向吗?


@GaBorgulya,感谢您的编辑,不了解smallmatrix,所以没有尝试编辑,因为通常的解决方案是在几行中打破公式。
mpiktas 2011年

Answers:


12

我们有

ddβ(yXβ)(yXβ)=2X(yXβ)

可以通过显式编写带有组件的方程式来显示。例如,写而不是。然后针对,,...,取导数,并堆叠所有内容以获得答案。为了便于快速说明,您可以从开始。(β1,,βp)ββ1β2βpp=2

凭着经验,人们会制定一般规则,例如在该文件中给出了一些一般规则。

编辑以指导问题的添加部分

在,p=2

(yXβ)(yXβ)=(y1x11β1x12β2)2+(y2x21β1x22β2)2

关于的导数是β1

2x11(y1x11β1x12β2)2x21(y2x21β1x22β2)

同样,关于的导数为β2

2x12(y1x11β1x12β2)2x22(y2x21β1x22β2)

因此,关于为β=(β1,β2)

(2x11(y1x11β1x12β2)2x21(y2x21β1x22β2)2x12(y1x11β1x12β2)2x22(y2x21β1x22β2))

现在,观察您可以将最后一个表达式重写为

2(x11x21x12x22)(y1x11β1x12β2y2x21β1x22β2)=2X(yXβ)

当然,对于较大的,所有操作都以相同的方式进行。p


太好了,我一直在寻找这种类型的pdf。万分感谢!
Alexander Engelhardt

哦,我以为自己现在可以做,但是我做不到。您能告诉我我的步骤是否正确,还是我应该采取“另一种方式”解决此问题?
亚历山大·恩格哈特

@Alexx Hardt:在p = 2的特殊情况下,我的第一个方程与您的最后一个方程相同。因此,您可以模拟对分量3、4,...,p的计算。
ocram 2011年

再次感谢:)我想我实际上会使用所有三个建议。我正在建立一个.pdf文件,它解释并总结了基本的统计矩阵代数,因为我在上课时以某种方式从未想过要学习它。我希望以三种不同的方式解决它可以帮助我更好地理解它。
亚历山大·恩格哈特

哦,但这是针对p = 2和n = 2的,对吧?我想将其记为n = 3。
亚历山大·恩格哈特

13

您也可以使用Matrix Cookbook中的公式。我们有

(yXβ)(yXβ)=yyβXyyXβ+βXXβ

现在取每个术语的导数。您可能要注意。相对于的项的导数为零。剩余期限βXy=yXβyyβ

βXXβ2yXβ

具有功能形式

f(x)=xAx+bx,

在第11页的书中的公式(88)中,,和。导数由公式(89)给出:x=βA=XXb=2Xy

fx=(A+A)x+b

所以

β(yXβ)(yXβ)=(XX+(XX))β2Xy

现在由于我们得到了所需的解决方案:(XX)=XX

XXβ=Xy

+1 mpiktas:您的解决方案比我的解决方案更巧妙,我认为应在更复杂的实际情况下使用。
ocram 2011年

1
@ocram,谢谢。我不会说它巧妙,它是现有公式的标准应用。您只需要知道以下公式即可:)
mpiktas

8

这是一种用于最小化回归平方和的技术,该技术实际上适用于更常规的设置,并且我认为有用。

让我们尝试完全避免矢量矩阵演算。

假设我们对最小化 其中,和。为了简单起见,我们假设和。

E=(yXβ)T(yXβ)=yXβ22,
yRnXRn×pβRppnrank(X)=p

对于任何,我们得到 β^Rp

E=yXβ^+Xβ^Xβ22=yXβ^22+X(ββ^)222(ββ^)TXT(yXβ^).

如果我们可以选择一个向量,使得每个右边的最后一项为零,那么我们就可以了,因为这意味着。β^ βminβEyXβ^22

但是,对于所有当且仅当和当且仅当最后一个等式才成立。因此,通过采用可以使最小化。(ββ^)TXT(yXβ^)=0βXT(yXβ^)=0XTXβ^=XTyEβ^=(XTX)1XTy


虽然这似乎是避免演算的“技巧”,但实际上它具有更广泛的应用,并且有一些有趣的几何图形在起作用。

其中该技术使一个导出一个示例比任何矩阵矢量演算方法更简单的是,当我们推广到矩阵的情况。让,和。假设我们希望 在整个参数矩阵上最小化 。这里是协方差矩阵。YRn×pXRn×qBRq×p

E=tr((YXB)Σ1(YXB)T)
BΣ

与上述完全相似的方法可以快速确定通过使用来达到 的最小值 也就是说,在回归设置中,响应是具有协方差的向量,并且观察值是独立的,则可以通过对响应的分量进行单独的线性回归来获得OLS估计。E

B^=(XTX)1XTY.
Σp

幸运的是,论坛规则允许为每个答案添加+1。谢谢你们的教育!
DWin 2011年

@DWin,您是要在问题的评论中发布此内容吗?
主教

我想我可以。我依次浏览了一个问题,然后依次回答了所有答案(在MathML的处理停止跳动之后),发现每个答案都很有用。我刚刚对您的留言发表了评论,因为那是我停止阅读的地方。
DWin 2011年

1
@DWin,是的,渲染有点时髦。我认为您可能打算对另一篇文章发表评论,因为该帖子没有投票(上下),因此该评论似乎不合适。干杯。
主教

1
@cardinal +1,有用的把戏。事实证明,这个问题是一个很好的参考。
mpiktas 2011年

6

一种可以帮助您理解的方法是,不使用矩阵代数,而是对每个分量进行区分,然后将结果“存储”在列向量中。因此,我们有:

βki=1N(Yij=1pXijβj)2=0

现在您拥有这些方程式的个,每个beta一个。这是链规则的简单应用:p

i=1N2(Yij=1pXijβj)1(βk[Yij=1pXijβj])=0
2i=1NXik(Yij=1pXijβj)=0

现在,我们可以将方括号内的总和重新写为 ,您将获得:j=1pXijβj=xiTβ

i=1NXikYii=1NXikxiTβ=0

现在,我们有个这些方程式,并将它们“堆叠”在列向量中。注意是唯一依赖于,因此我们可以将其堆叠到向量,得到:pXikkxi

i=1NxiYi=i=1NxixiTβ

现在,我们可以将Beta置于总和之外(但必须保持总和的RHS不变),然后取invervse:

(i=1NxixiT)1i=1NxiYi=β
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.