简单线性回归的样本相关性和R统计量的等价


10

通常认为,样本相关性的平方等于简单线性回归的确定系数。我无法亲自证明这一点,并希望对此事实的充分证明。r2R2


1
如果这是自学问题,请添加适当的标签。
安迪

这个问题还问为什么。R2=r2
银鱼

Answers:


8

表示法似乎有所不同:在简单的线性回归中,我通常看到带有符号的短语“样本相关系数” 是对观察到的和值之间的相关性的引用。这是我为该答案所采用的符号。我还看到了相同的短语和符号,用于表示观察到的与拟合之间的关系。在我的回答我已提及此为“多重相关系数”和使用的符号。这个答案解决了为什么确定系数既是的平方又是的平方的原因rxyÿ - [R [R [Ryy^RrR,因此使用哪种用法都没有关系。

一旦建立了一些有关相关性和含义的简单事实,结果就会出现在一行代数中,因此您可能更喜欢跳到盒式方程式。我假设我们不必证明协方差和方差的基​​本属性,尤其是: - [Rr2R

Cov(aX+b,Y)=aCov(X,Y)
Var(aX+b)=a2Var(X)

注意,一旦我们知道协方差是对称的并且,则后者可以从前者派生。从这里我们得出另一个有关关联的基本事实。对于,只要和方差不为零,a 0 X YVar(X)=Cov(X,X)a0XY

肺心病一个X+bÿ=冠状病毒一个X+bÿVar一个X+bVarÿ=一个一个2×冠状病毒XÿVarXVarÿ肺心病一个X+bÿ=sgn一个肺心病Xÿ

这里是符号函数或符号函数:其值是,如果和如果。这也是事实,,如果,但这种情况下,不关注我们:将是一个常数,所以中分母,我们无法计算相关性。对称参数使我们对结果进行概括:sgn a = + 1 a > 0 sgn a = 1 a < 0 sgn a = 0 a = 0 a X + b Var a X + b = 0 a sgn一个sgn一个=+1个一个>0sgn一个=-1个一个<0sgn一个=0一个=0一个X+bVar一个X+b=0一个C0

Cor(aX+b,cY+d)=sgn(a)sgn(c)Cor(X,Y)

我们不需要这个更通用的公式来回答当前问题,但我将其包括在内是为了强调情况的几何形状:它只是指出当变量被缩放或转换时相关性保持不变,而当变量为0时其正负号相反。反映出来。

我们还需要一个事实:对于包含常数项的线性模型,确定系数是多重相关系数的平方,它是观测响应与模型拟合值之间的相关性。这适用于多元回归和简单回归,但让我们将注意力集中在简单线性模型。来自观察,其结果如下被缩放,可能反射,并翻译的版本: - [R Ŷ Ŷ Ŷ = β 0 + β 1 X ÿ XR2RYY^ÿ^=β^0+β^1个Xÿ^X

[R=肺心病ÿ^ÿ=肺心病β^0+β^1个Xÿ=sgnβ^1个肺心病Xÿ=sgnβ^1个[R

因此,,其中符号与估计斜率的符号匹配,从而保证不会为负。显然。R R 2 = r 2[R=±[R[R[R2=[R2

通过不必考虑平方和,使前面的论点变得更简单。为了实现这一目标,我跳过之间的关系的细节,这是我们通常认为的平方和的条款,,为此我们思考的厨房和观察到的反应相关。这些符号使关系似乎是重言式的,但事实并非如此,如果模型中没有拦截项,则关系会破裂!我给一个的梗概约之间的关系几何参数从一个不同的问题采取:该图显示在绘制维对象空间 R R 2 = R 2 R R 2 n X 1 n[R2[RR2=(R)2RR2n,因此每个轴(未显示)代表一个观察单位,变量显示为向量。设计矩阵是向量(对于常数项)和解释变量的观测向量,因此列空间是二维平面。X1n

多元回归主题空间中的向量

拟合的是观察到的在列空间上的正交投影。这意味着残差向量垂直于平面,因此垂直于。点积为。由于残差总和为零,并且,则以便拟观察到响应均值。图中的虚线和 ÿXë=ÿ - ÿ 1ñ0=1ñË=Σ Ñ = 1 ËŶ= ^ ÿ +ëΣ Ñ = 1 Ÿ=Σ Ñ = 1 ^ ÿ ˉ ÿ ÿ- ˉ ý 1ñ ÿY^YXe=yy^1n0=1ne=i=1neiYi=Yi^+eii=1nYi=i=1nYi^ÿ¯ÿ-ÿ¯1个ñ θ řÿ^-ÿ¯1个ñ因此,不在中心所观察到的和拟合的响应矢量,角度的余弦它们之间是其相关性。θ[R

这些矢量与残差矢量形成的三角形是直角的,因为位于平坦的位置,但是 与它正交。应用毕达哥拉斯:Ëÿ^-ÿ¯1个ñË

ÿ-ÿ¯1个ñ2=ÿ-ÿ^2+ÿ^-ÿ¯1个ñ2

这只是平方和的分解,。确定系数的常规公式为在此三角形中为的确是的平方。您可能更熟悉公式,该立即给出,但请注意较为笼统,并将(如我们刚刚看到的)减少为 1 - S S 残差小号小号=小号小号剩余的+小号小号回归 1-2θ=COS2θ- [R[R2=小号小号回归1个-小号小号剩余的小号小号1个-2θ=cos2θ[R COS2θ1-小号š残余[R2=小号小号回归小号小号cos2θ SS回归1个-小号小号剩余的小号小号小号小号回归小号小号 如果模型中包含常数项


+1感谢您做出漂亮的数学和图形的努力!!
海涛杜

4

的被定义为 平方样本相关系数: 是等效的,因为它很容易使用以下命令进行验证: (请参阅Verbeek,第2.4节)- [R 2 = Vÿ[R2 - [R2ÿ

[R2=V^ÿ^一世V^ÿ一世=1个/ñ-1个一世=1个ñÿ^一世-ÿ¯21个/ñ-1个一世=1个ñÿ一世-ÿ¯2=Ë小号小号Ť小号小号
VÝ=V Ý+VË
[R2ÿ一世ÿ^一世=一世=1个ñÿ一世-ÿ¯ÿ^一世-ÿ¯2一世=1个ñÿ一世-ÿ¯2一世=1个ñÿ^一世-ÿ¯2
V^ÿ一世=V^ÿ^一世+V^Ë一世

您能否添加更多详细信息。我一直在试图证明这一点,但是没有成功……
一位老人在海里。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.