可以使用线性回归中的标准化


9

我试图解释一篇文章的结果,他们运用多元回归来预测各种结果。但是的(定义为标准B系数,其中是从属变量且是预测变量)报告似乎与报告的不匹配:ββx1=Bx1SDx1SDyyx1R2

在此处输入图片说明

尽管为-0.83,-0.29,-0.16,-0.43、0.25和-0.29,但报告的仅为0.20。βR2

同样,三个预测因子:体重,BMI和脂肪%是共线的,在性别内彼此相关,r = 0.8-0.9。

值是否适合这些,或者与之间没有直接关系?R2ββR2

此外,多共线性预测变量的问题可能会影响第四个预测变量的(VO2max),它与上述三个变量在r = 0.4附近相关吗?β


在这种情况下,是什么?β系数(标准化回归)?或者是其他东西?如果是这样的话,他们真的不能说什么,只是对标准偏差的解释。该系数表示影响很大的事实,并不意味着R 2值较高βR2
-Repmat

1
ß表示标准b系数。对于1个预测变量的情况,ß等于pearson的r,这与R平方直接相关,但是在这种多元情况下,为什么高ß并不意味着高R平方?
Sakari Jukarainen '16

2
不,在一个回归变量中,不等于Pearson的相关性:β = Cov y x ββsR2之间的关系不是那么简单。β=Cov(y,x)Var(x)Cov(y,x)Var(y)×Var(x)=ρ(y,x)βR2
理查德·哈迪

5
@RichardHardy我怀疑混淆是Sakari将定义为标准化回归系数。在二元线性回归中,回归系数(Sakari表示法中的b)为r x y s yβb,其中r是相关系数,s是标准偏差。为了标准化回归系数,我们将系数除以y的标准偏差,然后再乘以x的标准偏差,因此只剩下相关性。所以Sakari是对的。rxysysxrsyx
Maarten Buis

我仍然不明白为什么您认为这是错误的?如果论文中有一些摘要统计信息,您可以简单地检查数字是否加起来。您甚至提供了这样做的公式。您不能仅仅因为影响过大而得出结论,这些模型就可以很好地说明y的方差。
Repmat '16

Answers:


17

普通最小二乘回归几何解释提供了必要的见解。

我们需要知道的大多数信息都可以在两个回归x 2且响应为y的情况下看到。的标准化系数,或“测试版”,当所有三个向量标准化为共同的长度(我们可采取是统一)出现。因此,x 1x 2是平面E 2中的单位向量-它们位于单位圆上-y是包含该平面的三维欧氏空间E 3中的单位向量。拟合值ÿ是的正交(垂直)的投影x1x2yx1x2E2yE3y^ E 2上。因为 [R 2根本的平方长度 Ÿ,我们甚至不需要想象所有的三个维度:我们需要的所有信息,可以在平面绘制。yE2R2y^

正交回归

最好的情况是当回归变量正交时,如第一个图所示。

图1显示了回归器和$ \ hat y $作为平面中的向量。

在本图和其余图中,我将始终以白色绘制单位磁盘,并以黑色箭头绘制回归曲线。 将始终直接指向右侧。粗红色箭头描绘的组件ŸX 1X 2方向:即,β 1 X 1β 2 X 2。的长度ý是其上点的位置与灰色圆圈的半径-但要记住,- [R 2x1y^x1x2β1x1β2x2y^R2正方形的是长度。

勾股定理断言

R2=|y^|2=|β1x1|2+|β2x2|2=β12(1)+β22(1)=β12+β22.

由于毕达哥拉斯定理具有任意数量的维,因此该推理可推广到任意数量的回归变量,从而得出我们的第一个结果:

当回归变量正交时,等于beta的平方和。R2

一个直接的推论是,当只有一个回归变量(单变量回归)时,是标准斜率的平方。R2

相关的

负相关的回归数相交的角度大于直角。

图2,显示了负相关的回归变量

从该图像中可以明显看出,β的平方和严格大于。可以使用余弦定律或通过使用正态方程的矩阵解进行代数证明。R2

通过使两个几乎回归量平行,我们可以定位Ý原点(对于近- [R 2接近0),而它仍然有在大部件X 1X 2的方向。因此,R 2可以有多小没有限制。y^R20x1x2R2

数字

让我们纪念一下这个显而易见的结果,这是我们的第二个普遍性:

当回归变量相关时,可以任意小于beta的平方和。R2

但是,这不是通用关系,如下图所示。

图3显示了负相关的回归变量,但beta具有相反的符号。

现在严格超过了beta的平方和。由两个回归量绘制并拢并保持ÿ他们之间,我们可能会在贝塔两个方法1 / 2,甚至当[R 2接近于1。进一步的分析可能需要一些代数:我在下面进行讨论。R2y^1/2R21

我留给您的想象力,以建立具有正相关的回归变量的相似示例,从而以锐角相遇。

请注意,这些结论是不完整的:与β平方和相比,可以少多少是有限制的。特别是,通过仔细检查各种可能性,您可以得出结论(对于具有两个回归变量的回归)R2

当回归变量为正相关且beta具有共同的符号时,或者当回归变量为负相关且beta具有不同的符号时,必须至少与beta的平方和相等。 R2


代数结果

通常,让回归变量为(列向量),响应为y标准化装置(a)每正交于矢量1 1 ... 1 '和(b)它们具有单元长度:x1,x2,,xpy(1,1,,1)

|xi|2=|y|2=1.

将列向量组装到n × p矩阵X中。矩阵乘法的规则意味着xin×pX

Σ=XX

的相关矩阵。贝塔系数由正态方程式给出xi

β=(XX)1Xy=Σ1(Xy).

此外,根据定义,拟合度为

y^=Xβ=X(Σ1Xy).

它的平方长度根据定义给出R2

R2=|y^|2=y^y^=(Xβ)(Xβ)=β(XX)β=βΣβ.

几何分析建议我们寻找与和β平方和有关的不等式,R2

i=1pβi2=ββ.

任何矩阵A范数均由其系数的平方和得出(基本上将矩阵视为欧几里德空间中p 2分量的向量),L2Ap2

|A|22=i,jaij2=tr(AA)=tr(AA).

Cauchy-Schwarz不等式暗示

R2=tr(R2)=tr(βΣβ)=tr(Σββ)|Σ|2|ββ|2=|Σ|2ββ.

因为平方相关系数不能超过和有刚p 2在它们的p × p矩阵Σ| Σ | 2不能超过1p2p×pΣ|Σ|2。因此1×p2=p

R2pββ.

例如,当所有完全正相关时,就可以实现不等式。xi

可以有多大的上限。每个回归变量的平均值R 2 / p不能超过标准化系数的平方和。R2R2/p


结论

我们总体上可以得出什么结论?显然,有关回归变量的相关结构以及β的符号的信息可以用于限制的可能值,甚至可以精确地计算出它。缺席的是完整信息,很少能够超出一个明显的事实是,当回归量是线性独立的,单个非零的β意味着所述ÿ是非零值,证明- [R 2是非零值。R2y^R2

我们可以从问题的输出中明确得出的结论是,数据是相关的:由于beta的平方和等于,超过了R 2的最大可能值(即1),因此必须存在一定的相关性。1.1301R21

另一件事是,因为最大的β(大小)为,其平方为0.69 --far超过所报告- [R 20.20 -我们可以得出结论,一些回归量必须呈负相关。 (实际上,VO 20.830.69R20.20在任何涵盖广泛的后者值的样本中, max可能与年龄,体重和脂肪呈极显着的负相关。)VO2max

如果只有两个回归系数,我们可以推断出更大量的关于高回归相关性和贝塔检验的知识,因为这将使我们得出的如何准确的草图X 1X 2,和ÿ必须位于。不幸的是,这个六变量问题中的其他回归变量使事情变得相当复杂。在分析任何两个变量时,我们必须“取出”或“控制”其他四个回归变量(“协变量”)。这样,我们缩短了x 1x 2y的全部R2x1x2y^x1x2y未知数量(取决于这三个变量与协变量之间的关系),我们几乎不了解所使用向量的实际大小


+1,但我不明白为什么,在非正交的情况下,你的项目ÿ向量垂直于轴线的预测,而不是使突出虚线平行去到另一个预测。这听起来很麻烦,但我想您会明白我的意思的。您的“预测”(两个较小的红色向量)不会有的可达获得大红色ÿ载体。y^y^
变形虫

@amoeba你说的很对。我太急于创建这些图像!我将(希望暂时)删除该帖子,直到我有机会纠正该问题。感谢您指出这一点。
ub

@Amoeba我已经更正了图片并修改了分析以使其匹配。尽管细节发生了很大变化,但结论仍然相同。
ub

1
@amoeba再次您是正确的。冒着失去感兴趣的读者的风险,但现在不得不对几何直觉进行量化了,我加紧了这个结论,并用一点代数证明了这一点。(我相信代数是正确的!)
ub

1
非常感谢!附带说明,VO2max与体重和BMI呈负相关,因为它们与较高的瘦体重有关。在所述表中,VO2max实际上对应于VO2max除以重量(这是将VO2max缩放为身体尺寸的一种不好的方式)。如表中所述,表中的最大摄氧量/体重与所有其他预测变量(性别除外)呈负相关,这可能解释了较高的ß但较低的R平方。
Sakari Jukarainen
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.