相关系数与回归斜率有何不同?


69

我本来希望相关系数与回归斜率(beta)相同,但是仅将两者进行比较,它们是不同的。它们有何不同-它们提供什么不同的信息?


3
如果将它们标准化,则它们是相同的。但是想想当您更改单位时会发生什么...
nicolas

我认为对这个Q得分最高的答案(甚至可能是我的A表示我可以证明,如果我们将x上的y和x上的y回归,则相关系数可以看作是我们获得的两个斜率的几何平均值的绝对值。 Y,分别)也与此有关
statmerkur

Answers:


82

假设您在谈论一个简单的回归模型,并且用最小二乘方估计,我们从维基百科得知,因此,仅当时,两者才重合。也就是说,从某种意义上说,它们仅在两个变量的比例相同时才重合。如@gung所示,最常见的实现方法是通过标准化。 β = Ç ø řÝ X 小号dÿ

Yi=α+βXi+εi
SDYi=SDXi
β^=cor(Yi,Xi)SD(Yi)SD(Xi)
SD(Yi)=SD(Xi)

从某种意义上讲,两者提供了相同的信息-它们各自告诉您和之间的线性关系的强度。但是,它们确实为您提供了不同的信息(当然,当它们完全相同时除外):ÿ XiYi

  • 相关性为您提供了一个有界的度量,可以独立于两个变量的大小来解释该度量。估计的相关性越接近,两者越接近理想的线性关系。孤立的回归斜率不会告诉您那条信息。±1

  • 回归斜率给出了一个有用的量,该量被解释为对于给定的值,的期望值的估计变化。具体来说,告诉您的期望值的变化,与的1个单位的增加相对应。不能仅从相关系数中推导出该信息。X β Ÿ X YiXiβ^YiXi


作为该答案的推论,请注意,将x相对于y进行倒数并不是将y相对于x进行倒数的倒数!
aginensky

23

通过简单的线性回归(即只有1个协变量),如果两个变量都首先标准化,则斜率与Pearson的相同。(有关更多信息,您可能会在这里找到我的答案很有帮助。)进行多元回归时,由于等原因,这可能会更加复杂。 - [Rβ1r


14

相关系数测量“密封性”的两个变量之间的线性关系,并且在-1和1(含)之间界定。接近零的相关性表示变量之间没有线性关联,而接近-1或+1的相关性表示强线性关系。 直观地,您越容易通过散点图绘制最佳拟合线,它们之间的相关性就越高。

回归斜率措施的“陡度”两个变量之间的线性关系的,并且可以从取任意值到。接近零的坡度意味着响应(Y)变量随预测变量(X)的变化而缓慢变化。距零较远的斜率(负向或正向)意味着响应随着预测变量的变化而更快地变化。 直观地,如果您要通过散点图绘制最合适的线,则它越陡峭,斜率就越远离零。+ +

因此,相关系数和回归斜率必须具有相同的符号(+或-),但几乎永远不会具有相同的值。

为简单起见,此答案假设简单的线性回归。


您认为beta可以位于,但是不是x和y的方差比暗示了beta上是否有逐例约束吗?inf,inf
Matifou

1

皮尔逊的相关系数是无量纲的,并且在-1和1之间缩放,而与输入变量的尺寸和比例无关。

如果(例如)以克或千克为单位输入质量,则的值不会有任何差异,而这会给梯度/斜率(具有尺寸并相应缩放的值)带来巨大的差异……同样,如果以任何方式调整比例(包括使用磅或吨),对都没有影响。rr

一个简单的演示(使用Python的歉意!):

import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]

显示即使斜率增加了10倍,r=0.969363

我必须承认,将缩放到-1和1之间(这是分子绝对值的绝对值不能大于分母的情况之一),这是一个巧妙的技巧。r

正如@Macro在上面详细介绍的那样,斜率,因此您直觉地认为Pearson的与斜率有关,但前提是根据到标准偏差(可以有效地恢复尺寸和比例!)。b=r(σyσx)r

起初,我认为公式似乎暗示松散拟合的线(低)导致较低的梯度,这很奇怪。然后我画了一个例子,意识到给定一个梯度,改变“松散度”会导致减小,但这被的成比例增加所抵消。rrσy

在下面的图表中,绘制了四个数据集:x,y

  1. 的结果(所以梯度,,,)...请注意y=3xb=3r=1σx=2.89σy=8.66σyσx=3
  2. 相同,但以随机数变化,其中,,,由此我们可以计算r=0.2447σx=2.89σy=34.69b=2.94
  3. y=15x(所以且,,)b=15r=1σx=0.58σy=8.66
  4. 与(2)相同,但范围减小,因此 (并且 ,,) xb=14.70r=0.2447σx=0.58σy=34.69相关和梯度

可以看出,方差影响而不必影响,而度量单位可以影响标度,因此不会影响rbbr

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.