我试图解释一篇文章的结果,他们运用多元回归来预测各种结果。但是的(定义为标准B系数,其中是从属变量且是预测变量)报告似乎与报告的不匹配:
尽管为-0.83,-0.29,-0.16,-0.43、0.25和-0.29,但报告的仅为0.20。
同样,三个预测因子:体重,BMI和脂肪%是共线的,在性别内彼此相关,r = 0.8-0.9。
值是否适合这些,或者与之间没有直接关系?
此外,多共线性预测变量的问题可能会影响第四个预测变量的(VO2max),它与上述三个变量在r = 0.4附近相关吗?
我试图解释一篇文章的结果,他们运用多元回归来预测各种结果。但是的(定义为标准B系数,其中是从属变量且是预测变量)报告似乎与报告的不匹配:
尽管为-0.83,-0.29,-0.16,-0.43、0.25和-0.29,但报告的仅为0.20。
同样,三个预测因子:体重,BMI和脂肪%是共线的,在性别内彼此相关,r = 0.8-0.9。
值是否适合这些,或者与之间没有直接关系?
此外,多共线性预测变量的问题可能会影响第四个预测变量的(VO2max),它与上述三个变量在r = 0.4附近相关吗?
Answers:
我们需要知道的大多数信息都可以在两个回归和x 2且响应为y的情况下看到。的标准化系数,或“测试版”,当所有三个向量标准化为共同的长度(我们可采取是统一)出现。因此,x 1和x 2是平面E 2中的单位向量-它们位于单位圆上-y是包含该平面的三维欧氏空间E 3中的单位向量。拟合值ÿ是的正交(垂直)的投影到 E 2上。因为 [R 2根本的平方长度 Ÿ,我们甚至不需要想象所有的三个维度:我们需要的所有信息,可以在平面绘制。
最好的情况是当回归变量正交时,如第一个图所示。
在本图和其余图中,我将始终以白色绘制单位磁盘,并以黑色箭头绘制回归曲线。 将始终直接指向右侧。粗红色箭头描绘的组件Ÿ在X 1和X 2方向:即,β 1 X 1和β 2 X 2。的长度ý是其上点的位置与灰色圆圈的半径-但要记住,- [R 2是正方形的是长度。
该勾股定理断言
由于毕达哥拉斯定理具有任意数量的维,因此该推理可推广到任意数量的回归变量,从而得出我们的第一个结果:
当回归变量正交时,等于beta的平方和。
一个直接的推论是,当只有一个回归变量(单变量回归)时,是标准斜率的平方。
负相关的回归数相交的角度大于直角。
从该图像中可以明显看出,β的平方和严格大于。可以使用余弦定律或通过使用正态方程的矩阵解进行代数证明。
通过使两个几乎回归量平行,我们可以定位Ý原点(对于近- [R 2接近0),而它仍然有在大部件X 1和X 2的方向。因此,R 2可以有多小没有限制。
让我们纪念一下这个显而易见的结果,这是我们的第二个普遍性:
当回归变量相关时,可以任意小于beta的平方和。
但是,这不是通用关系,如下图所示。
现在严格超过了beta的平方和。由两个回归量绘制并拢并保持ÿ他们之间,我们可能会在贝塔两个方法1 / 2,甚至当[R 2接近于1。进一步的分析可能需要一些代数:我在下面进行讨论。
我留给您的想象力,以建立具有正相关的回归变量的相似示例,从而以锐角相遇。
请注意,这些结论是不完整的:与β平方和相比,可以少多少是有限制的。特别是,通过仔细检查各种可能性,您可以得出结论(对于具有两个回归变量的回归)
当回归变量为正相关且beta具有共同的符号时,或者当回归变量为负相关且beta具有不同的符号时,必须至少与beta的平方和相等。
通常,让回归变量为(列向量),响应为y。 标准化装置(a)每正交于矢量(1 ,1 ,... ,1 )'和(b)它们具有单元长度:
将列向量组装到n × p矩阵X中。矩阵乘法的规则意味着
是的相关矩阵。贝塔系数由正态方程式给出
此外,根据定义,拟合度为
它的平方长度根据定义给出:
几何分析建议我们寻找与和β平方和有关的不等式,
任何矩阵A的范数均由其系数的平方和得出(基本上将矩阵视为欧几里德空间中p 2分量的向量),
Cauchy-Schwarz不等式暗示
因为平方相关系数不能超过和有刚p 2在它们的p × p矩阵Σ,| Σ | 2不能超过√。因此
例如,当所有完全正相关时,就可以实现不等式。
可以有多大的上限。每个回归变量的平均值R 2 / p不能超过标准化系数的平方和。
我们总体上可以得出什么结论?显然,有关回归变量的相关结构以及β的符号的信息可以用于限制的可能值,甚至可以精确地计算出它。缺席的是完整信息,很少能够超出一个明显的事实是,当回归量是线性独立的,单个非零的β意味着所述ÿ是非零值,证明- [R 2是非零值。
我们可以从问题的输出中明确得出的结论是,数据是相关的:由于beta的平方和等于,超过了R 2的最大可能值(即1),因此必须存在一定的相关性。
另一件事是,因为最大的β(大小)为,其平方为0.69 --far超过所报告- [R 2的0.20 -我们可以得出结论,一些回归量必须呈负相关。 (实际上,VO 2在任何涵盖广泛的后者值的样本中, max可能与年龄,体重和脂肪呈极显着的负相关。)
如果只有两个回归系数,我们可以推断出更大量的关于高回归相关性和贝塔检验的知识,因为这将使我们得出的如何准确的草图X 1,X 2,和ÿ必须位于。不幸的是,这个六变量问题中的其他回归变量使事情变得相当复杂。在分析任何两个变量时,我们必须“取出”或“控制”其他四个回归变量(“协变量”)。这样,我们缩短了x 1,x 2和y的全部未知数量(取决于这三个变量与协变量之间的关系),我们几乎不了解所使用向量的实际大小。