我本来希望相关系数与回归斜率(beta)相同,但是仅将两者进行比较,它们是不同的。它们有何不同-它们提供什么不同的信息?
我本来希望相关系数与回归斜率(beta)相同,但是仅将两者进行比较,它们是不同的。它们有何不同-它们提供什么不同的信息?
Answers:
假设您在谈论一个简单的回归模型,并且用最小二乘方估计,我们从维基百科得知,因此,仅当时,两者才重合。也就是说,从某种意义上说,它们仅在两个变量的比例相同时才重合。如@gung所示,最常见的实现方法是通过标准化。 β = Ç ø ř(Ý 我,X 我)⋅ 小号d(ÿ 我)
从某种意义上讲,两者提供了相同的信息-它们各自告诉您和之间的线性关系的强度。但是,它们确实为您提供了不同的信息(当然,当它们完全相同时除外):ÿ 我
相关性为您提供了一个有界的度量,可以独立于两个变量的大小来解释该度量。估计的相关性越接近,两者越接近理想的线性关系。孤立的回归斜率不会告诉您那条信息。
回归斜率给出了一个有用的量,该量被解释为对于给定的值,的期望值的估计变化。具体来说,告诉您的期望值的变化,与的1个单位的增加相对应。不能仅从相关系数中推导出该信息。X 我β Ÿ 我X 我
的相关系数测量“密封性”的两个变量之间的线性关系,并且在-1和1(含)之间界定。接近零的相关性表示变量之间没有线性关联,而接近-1或+1的相关性表示强线性关系。 直观地,您越容易通过散点图绘制最佳拟合线,它们之间的相关性就越高。
的回归斜率措施的“陡度”两个变量之间的线性关系的,并且可以从取任意值到。接近零的坡度意味着响应(Y)变量随预测变量(X)的变化而缓慢变化。距零较远的斜率(负向或正向)意味着响应随着预测变量的变化而更快地变化。 直观地,如果您要通过散点图绘制最合适的线,则它越陡峭,斜率就越远离零。+ ∞
因此,相关系数和回归斜率必须具有相同的符号(+或-),但几乎永远不会具有相同的值。
为简单起见,此答案假设简单的线性回归。
皮尔逊的相关系数是无量纲的,并且在-1和1之间缩放,而与输入变量的尺寸和比例无关。
如果(例如)以克或千克为单位输入质量,则的值不会有任何差异,而这会给梯度/斜率(具有尺寸并相应缩放的值)带来巨大的差异……同样,如果以任何方式调整比例(包括使用磅或吨),对都没有影响。
一个简单的演示(使用Python的歉意!):
import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]
显示即使斜率增加了10倍,
我必须承认,将缩放到-1和1之间(这是分子绝对值的绝对值不能大于分母的情况之一),这是一个巧妙的技巧。
正如@Macro在上面详细介绍的那样,斜率,因此您直觉地认为Pearson的与斜率有关,但前提是根据到标准偏差(可以有效地恢复尺寸和比例!)。
起初,我认为公式似乎暗示松散拟合的线(低)导致较低的梯度,这很奇怪。然后我画了一个例子,意识到给定一个梯度,改变“松散度”会导致减小,但这被的成比例增加所抵消。
在下面的图表中,绘制了四个数据集:
可以看出,方差影响而不必影响,而度量单位可以影响标度,因此不会影响