在解释变量的回归系数时,其顺序是否重要?


24

起初我以为顺序无关紧要,但是后来我了解了用于计算多个回归系数的gram-schmidt正交化过程,现在我有了第二个想法。

根据gram-schmidt过程,在其他变量中索引解释性变量的时间越晚,其残差矢量越小,这是因为从中减去了先前变量的残差矢量。结果,说明变量的回归系数也较小。

如果这是真的,那么该变量的残差矢量如果被更早地索引,则将更大,因为将从中减去的残差矢量会更少。这意味着回归系数也将更大。

好的,所以我被要求澄清我的问题。因此,我从文本中发布了屏幕截图,这让我一开始很困惑。好的,去。

我的理解是,至少有两个选择来计算回归系数。第一个选项在下面的屏幕截图中表示为(3.6)。

第一种方式

这是第二个选项(我不得不使用多个屏幕截图)。

第二种方式

在此处输入图片说明 在此处输入图片说明

除非我误读了某些内容(这肯定是可能的),否则在第二种选择中顺序似乎很重要。第一种选择有关系吗?为什么或者为什么不?还是我的参照系太混乱了,甚至不是一个有效的问题?另外,这是否与I型平方和vs II型平方和相关?

在此先多谢,我很困惑!


1
您能概述一下如何计算系数的确切步骤吗?从我对gram-schmidt正交化以及如何将其应用于回归问题的了解中,我可以假定通过使用gs过程,您可以拟合回归,但不能拟合原始系数。请注意,回归拟合是对列空间的投影。如果将列正交化,则将获得跨列的空间的正交基,因此拟合将是该基的线性组合,也将是原始列的线性组合。这将是相同的...
mpiktas 2012年

但是系数会有所不同。这是完全正常的。
mpiktas 2012年

我想我很困惑,因为我想我读过“统计学习的要素”,即使用gram-schmidt过程计算的系数与使用传统过程计算的系数相同:B =(X'X)^- 1 X'y。
瑞安·佐蒂

这是该书摘录中有关该过程的摘录:“我们可以将[系数]的估计视为两次简单回归的结果。这些步骤是:1.对1进行x回归以产生残差z = x − x̄1; 2.对残差z进行y回归,得到系数βˆ1。该公式推广到p个输入的情况,如算法3.1所示。 2是正交的,因此计算出的简单回归系数实际上也有多个回归系数。”
瑞安·佐蒂

当我将其复制并粘贴到此处的评论部分时,它会变得有些混乱,因此最好直接查看源代码。它是“统计学习的要素”的第53至54页,可从斯坦福大学的网站上免费下载:www-stat.stanford.edu/~tibs/ElemStatLearn
瑞安·佐蒂

Answers:


22

我认为混乱可能是由于一些简单的事情引起的,但是它提供了一个很好的机会来审查一些相关问题。

请注意,本文并未声称所有回归系数可以通过连续残差向量计算为 但是这样只能计算最后一个!β^i

β^i=?y,zizi2,
β^p

连续正交化方案(一种Gram–Schmidt正交化形式)(几乎)产生一对矩阵和,使得 其中为具有正交列的,为上三角。我说“几乎”是因为该算法仅指定直到列的范数,通常不会为1,而是可以通过对列进行标准化并对坐标进行相应的简单调整来使其具有单位范数矩阵。ZG

X=ZG,
Zn×pG=(gij)p×pZG

当然,假设具有等级,唯一的最小二乘解是向量,它可以解决系统 XRn×ppnβ^

XTXβ^=XTy.

代入并使用(通过构造),我们得到 等效于 X=ZGZTZ=I

GTGβ^=GTZTy,
Gβ^=ZTy.

现在,专注于线性系统的最后一行。在最后一行中唯一的非零元素是。因此,我们得到 不难看出(验证一下是否理解!)这样就产生了解决方案。(警告:我使用已经标准化以具有单位范数,而在书中则没有。这说明了这样的事实,即书中分母具有平方范数,而我只有范数。)Ggpp

gppβ^p=y,zp.
gpp=zpzi

要找到所有回归系数,需要执行一个简单的反替代步骤来求解单个。例如,对于第, 等等 可以继续执行此过程,从系统的最后一行到第一个行“向后”,减去已经计算出的回归系数的加权和,然后除以前导项即可得到。β^i(p1)

gp1,p1β^p1+gp1,pβ^p=zp1,y,
β^p1=gp1,p11zp1,ygp1,p11gp1,pβ^p.
giiβ^i

ESL部分中的要点是,我们可以对的列进行重新排序以获得一个新矩阵,而第个原始列现在是最后一个。如果然后在新矩阵上应用Gram–Schmidt过程,则会得到新的正交化,从而可以通过上述简单解找到原始系数的解。这为我们提供了回归系数的解释。这是在残差向量上的单变量回归,该残差向量是通过从 “回归”设计矩阵的其余列而。XX(r)rβ^rβ^ryxr

常规QR分解

Gram–Schmidt过程只是产生的QR分解的一种方法。确实,有很多理由比Gram–Schmidt过程更喜欢其他算法方法。X

Householder反射和Givens旋转提供了解决此问题的更数值稳定的方法。注意,在二维分解的一般情况下,上述发展不会改变。即,让 是任何的QR分解。然后,使用与上述完全相同的推理和代数运算,我们得到最小二乘解满足 简化为 由于是上三角,因此相同的反替代技术也可以使用。我们首先解决

X=QR,
Xβ^
RTRβ^=RTQTy,
Rβ^=QTy.
Rβ^p然后从下往上进行。使用哪种 QR分解算法通常取决于控制数值不稳定性,从这个角度来看,Gram–Schmidt通常不是竞争性方法。

将分解为正交矩阵的概念还可以进一步推广,以得到拟合向量的非常通用的形式,但我担心此响应已经太长了。Xy^


6

我浏览了本书,看起来练习3.4可能有助于理解使用GS查找所有回归系数(而不仅仅是最终系数 -所以我输入了一个解决方案。希望这是有用。βjβp

ESL练习3.4

演示如何从Gram-Schmidt过程的单遍操作中获得最小二乘系数的向量。用的QR分解表示您的解决方案。 X

回想一下,通过一次Gram-Schmidt过程,我们可以将矩阵编写为 其中包含正交列,是对角线上带有对角线的上对角矩阵,并且。这反映了以下事实:根据定义,X

X=ZΓ,
ZzjΓγij=zi,xjzi2
xj=zj+k=0j1γkjzk.

现在,通过分解,我们可以写成,其中是一个正交矩阵,是一个上三角矩阵。我们有和,其中是对角矩阵,。 QRX=QRQRQ=ZD1R=DΓDDjj=zj

现在,根据的定义,我们有 现在,使用分解,我们有β^

(XTX)β^=XTy.
QR
(RTQT)(QR)β^=RTQTyRβ^=QTy

R是上三角,我们可以写与我们之前的结果一致。现在,通过反向替换,我们可以获得回归系数的序列。例如,要计算,我们有

Rppβ^p=qp,yzpβ^p=zp1zp,yβ^p=zp,yzp2
β^jβ^p1
Rp1,p1β^p1+Rp1,pβ^p=qp1,yzp1β^p1+zp1γp1,pβ^p=zp11zp1,y
然后求解。可以对所有重复此过程,从而在一次Gram-Schmidt过程中获得回归系数。β^p1βj

3

为什么不尝试比较呢?拟合一组回归系数,然后更改顺序并再次拟合它们,看它们是否不同(可能的舍入误差除外)。

正如@mpiktas指出的,您目前在做什么并不十分清楚。

我可以看到使用GS来求解在最小二乘方程。但是然后您将在矩阵上执行GS ,而不是原始数据。在这种情况下,系数应相同(可能的舍入误差除外)。B(xx)B=(xy)(xx)

GS进行回归的另一种方法是将GS应用于预测变量,以消除它们之间的共线性。然后将正交变量用作预测变量。在这种情况下,顺序很重要,并且系数将不同,因为系数的解释取决于顺序。考虑2个预测变量和并对其进行GS,然后用作预测变量。在那种情况下,第一个系数(在截距之后)显示对的影响,第二个系数是调整后对的影响x1x2x1yx2yx1。现在,如果您颠倒x的顺序,则第一个系数会显示对的影响(忽略而不是对其进行调整),第二个系数是调整。x2yx1x1x2


我认为您的最后一段可能最接近我的困惑之源-GS 确实使顺序很重要。我也那么认为。不过,我仍然有些困惑,因为我正在阅读的书名为《统计学习的要素》(斯坦福大学的出版物可免费获得:www-stat.stanford.edu/~tibs/ElemStatLearn)建议GS等效于计算系数的标准方法;即B =(X'X)^-1 X'y。
瑞安·佐蒂

而且您所说的部分内容也使我有些困惑:“我可以看到使用GS来求解最小二乘方程(x'x)^ − 1 B =(x'y)中的B。 (x'x)矩阵上的GS,而不是原始数据。” 我以为x'x矩阵包含原始数据?...至少这就是统计学习元素所说的。它说x'x中的x是一个N×p矩阵,其中N是输入(观测)的数量,p是维数。
瑞安·佐蒂

如果GS不是计算系数的标准程序,那么通常如何处理共线性?冗余(共线性)通常如何在x之间分配?传统上共线性不会使系数不稳定吗?那么,这是否表明GS流程标准流程?因为GS过程还会使系数不稳定-较小的残差矢量会使系数不稳定。
瑞安·佐蒂

至少这就是文本所说的:“如果xp与其他一些xk高度相关,则残差矢量zp将接近零,并且从(3.28)起系数βˆp将非常不稳定。”
瑞安·佐蒂

2
注意,GS QR分解的一种形式。
主教
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.