相关系数与回归斜率有何不同？

69

我本来希望相关系数与回归斜率（beta）相同，但是仅将两者进行比较，它们是不同的。它们有何不同-它们提供什么不同的信息？

regression correlation

— 卢西亚诺
source

3

如果将它们标准化，则它们是相同的。但是想想当您更改单位时会发生什么...

— nicolas

我认为对这个Q得分最高的答案（甚至可能是我的A表示我可以证明，如果我们将x上的y和x上的y回归，则相关系数可以看作是我们获得的两个斜率的几何平均值的绝对值。 Y，分别）也与此有关

— statmerkur

82

假设您在谈论一个简单的回归模型，并且用最小二乘方估计，我们从维基百科得知，因此，仅当时，两者才重合。也就是说，从某种意义上说，它们仅在两个变量的比例相同时才重合。如@gung所示，最常见的实现方法是通过标准化。

Y_{i} = α + β X_{i} + ε_{i}

$Y_i = \alpha + \beta X_i + \varepsilon_i$

\hat{β} = c o r (Y_{i}, X_{i}) \cdot \frac{S D (Y_{i})}{S D (X_{i})}

$\hat {\beta} = {\rm cor}(Y_i, X_i) \cdot \frac{ {\rm SD}(Y_i) }{ {\rm SD}(X_i) }$

S D (Y_{i}) = S D (X_{i})

${\rm SD}(Y_i) = {\rm SD}(X_i)$

从某种意义上讲，两者提供了相同的信息-它们各自告诉您和之间的线性关系的强度。但是，它们确实为您提供了不同的信息（当然，当它们完全相同时除外）： $X_i$ $Y_i$

相关性为您提供了一个有界的度量，可以独立于两个变量的大小来解释该度量。估计的相关性越接近，两者越接近理想的线性关系。孤立的回归斜率不会告诉您那条信息。 $\pm 1$
回归斜率给出了一个有用的量，该量被解释为对于给定的值，的期望值的估计变化。具体来说，告诉您的期望值的变化，与的1个单位的增加相对应。不能仅从相关系数中推导出该信息。 $Y_i$ $X_i$ $\hat \beta$ $Y_i$ $X_i$

— 巨集
source

作为该答案的推论，请注意，将x相对于y进行倒数并不是将y相对于x进行倒数的倒数！

— aginensky

23

通过简单的线性回归（即只有1个协变量），如果两个变量都首先标准化，则斜率与Pearson的相同。（有关更多信息，您可能会在这里找到我的答案很有帮助。）进行多元回归时，由于多重共线性等原因，这可能会更加复杂。 $\beta_1$ $r$

— 贡
source

14

的相关系数测量“密封性”的两个变量之间的线性关系，并且在-1和1（含）之间界定。接近零的相关性表示变量之间没有线性关联，而接近-1或+1的相关性表示强线性关系。 直观地，您越容易通过散点图绘制最佳拟合线，它们之间的相关性就越高。

的回归斜率措施的“陡度”两个变量之间的线性关系的，并且可以从取任意值到。接近零的坡度意味着响应（Y）变量随预测变量（X）的变化而缓慢变化。距零较远的斜率（负向或正向）意味着响应随着预测变量的变化而更快地变化。 直观地，如果您要通过散点图绘制最合适的线，则它越陡峭，斜率就越远离零。 $-\infty$ $+\infty$

因此，相关系数和回归斜率必须具有相同的符号（+或-），但几乎永远不会具有相同的值。

为简单起见，此答案假设简单的线性回归。

— 破坏者
source

您认为beta可以位于，但是不是x和y的方差比暗示了beta上是否有逐例约束吗？

- inf, inf

$-\inf, \inf$

— Matifou

1

皮尔逊的相关系数是无量纲的，并且在-1和1之间缩放，而与输入变量的尺寸和比例无关。

如果（例如）以克或千克为单位输入质量，则的值不会有任何差异，而这会给梯度/斜率（具有尺寸并相应缩放的值）带来巨大的差异……同样，如果以任何方式调整比例（包括使用磅或吨），对都没有影响。 $r$ $r$

一个简单的演示（使用Python的歉意！）：

import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]

显示即使斜率增加了10倍， $r = 0.969363$

我必须承认，将缩放到-1和1之间（这是分子绝对值的绝对值不能大于分母的情况之一），这是一个巧妙的技巧。 $r$

正如@Macro在上面详细介绍的那样，斜率，因此您直觉地认为Pearson的与斜率有关，但前提是根据到标准偏差（可以有效地恢复尺寸和比例！）。 $b = r(\frac{\sigma_{y}}{\sigma_{x}})$ $r$

起初，我认为公式似乎暗示松散拟合的线（低）导致较低的梯度，这很奇怪。然后我画了一个例子，意识到给定一个梯度，改变“松散度”会导致减小，但这被的成比例增加所抵消。 $r$ $r$ $\sigma_{y}$

在下面的图表中，绘制了四个数据集： $x,y$

的结果（所以梯度，，，）...请注意 $y=3x$ $b=3$ $r=1$ $\sigma_{x}=2.89$ $\sigma_{y}=8.66$ $\frac{\sigma_{y}}{\sigma_{x}}=3$
相同，但以随机数变化，其中，，，由此我们可以计算 $r = 0.2447$ $\sigma_{x}=2.89$ $\sigma_{y}=34.69$ $b= 2.94$
$y=15x$ （所以且，，） $b=15$ $r=1$ $\sigma_{x}=0.58$ $\sigma_{y}=8.66$
与（2）相同，但范围减小，因此（并且，，） $x$ $b= 14.70$ $r = 0.2447$ $\sigma_{x}=0.58$ $\sigma_{y}=34.69$

可以看出，方差影响而不必影响，而度量单位可以影响标度，因此不会影响 $r$ $b$ $b$ $r$

— 詹姆士
source