您如何解释相关性和协方差之间的区别?


Answers:


109

协方差的问题在于它们难以比较:当您计算一组身高和体重的协方差时(分别以米和千克表示),您将获得与以其他单位进行计算时不同的协方差(这对于使用或不使用公制的人来说已经是一个问题了!),而且,很难说(例如)身高和体重是否比“脚趾和手指的长度”更“弯曲” ,仅仅是因为计算协方差的“比例”是不同的。

解决此问题的方法是“标准化”协方差:将协方差除以代表两个协变量中的多样性和小数位数的值,最后得到一个确保在-1和1:之间的值。无论原始变量位于什么单位,您都将始终获得相同的结果,这也将确保您可以在一定程度上比较两个变量是否比两个变量“相关”更多。

注意:以上假设读者已经了解协方差的概念。


2
+1您的意思是在最后一句中写“ correlation”而不是“ covariance”吗?
ub

您确定无法比较不同单位的协方差吗?这些单元通过协方差乘以-如果你的X是在cm,你的Y是在s,那么你。然后,您可以将结果乘以单位转换系数。在R中尝试:cov(X,Y)=z cmscov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)
naught101

3
@ naught101我怀疑问题的关键在于,如果我告诉您且仅此而已,您将不知道X是否可以高度预测Y,而如果我告诉您CorX Y = .9您将拥有更多可解释的内容。冠状病毒Xÿ=101个0Xÿ肺心病Xÿ=.9

@guy:那就是没有单位的协方差:PI认为重要的是,您不能轻易地比较来自具有不同方差的两个数据集的协方差。例如,如果您具有关系B = 2 * A,并且有两个数据集{A1,B1}和{A2,B2},其中A1的方差为0.5,A2的方差为2,则将比c o v A 1 B 1 大得多,即使两者之间的关系完全相同。CØv一种22CØv一种1个1个
naught101 2013年

3
因此,简单而言,“核心化”>“协方差”
卡尔·莫里森

58

这些类型的问题的要求使我感到有些奇怪。这是一个数学概念/公式,但是我想在完全没有数学符号的情况下谈论它。我也认为应该指出,我认为应该在大多数人接受高等教育之前将理解公式的实际代数教授给大多数人(不需要了解矩阵代数,只需简单的代数就足够了)。

因此,首先,不是完全忽略公式,而是在一些神奇和启发式的类推方式中谈论公式,而是让我们看一下公式,并尝试以小步骤来解释各个组件。当查看公式时,协方差和相关性方面的差异应该变得清楚。尽管从类推和启发式的角度来讲,我怀疑这会掩盖两个相对简单的概念以及它们在许多情况下的差异。

因此,让我们从样本协方差的公式开始(我刚刚从维基百科获取并采用了这些公式);

1个ñ-1个一世=1个ñX一世-X¯ÿ一世-ÿ¯

为了使每个人都快上一步,让我们在公式中明确定义所有元素和运算。

  • y i分别是同一观察值的两个独立属性的量度X一世ÿ一世
  • ˉ ÿ各自属性的装置(或平均)X¯ÿ¯
  • 对于,可以说这意味着将最终结果除以n-11个ñ-1个ñ-1个
  • 对于某些人来说,n i = 1可能是一个外来符号,因此解释该操作可能会很有用。它只是所有单独观察的总和, n代表观察的总数。一世=1个ñ一世ñ

在这一点上,我可能会介绍一个简单的示例,可以说一下元素和操作。因此,例如,让我们组成一个表格,其中每一行对应一个观察值(y分别标记为正确)。可能会使这些示例更具体(例如,x代表年龄,y代表体重),但是对于我们在此处的讨论并不重要。XÿXÿ

x y
---
2 5
4 8
9 3
5 6
0 8

此时,如果您觉得公式中的sum运算可能尚未完全理解,则可以在更简单的上下文中再次引入它。只需说,与本示例中的说法相同;一世=1个ñX一世

  x
 --
  2
  4
  9
  5
+ 0
 --
 20

现在乱七八糟应及时清理,我们可以以自己的方式代入公式的第二部分,。现在,假设人都已经知道是什么意思, ˉ X ¨ Ÿ代表,我会说,是虚伪的我自己的评论较早的帖子,人们可以仅仅将意味着简单的启发式的条件(如:中间的分布)。这样一来,您就可以一次执行一次此过程。声明X - ˉ XX一世-X¯ÿ一世-ÿ¯X¯ÿ¯X一世-X¯仅检查每个观察值之间的偏差/距离,以及该特定属性的所有观察值的平均值。因此,当观察值离平均值较远时,此操作将被赋予较高的值。然后可以参考给定的示例表,并简单地演示对观测值向量的操作。X

x x_bar (x - x_bar)
2 4     -2
4 4      0
9 4      5
5 4      1
0 4     -4

向量的运算相同,但只是为了增强,您也可以表示该运算。ÿ

y y_bar (y - y_bar)
5  6     -1
8  6      2
3  6     -3
6  6      0
8  6      2

现在,术语ÿ - ˉ ÿX一世-X¯不应该是明确的,我们可以去到下一个操作,这些结果相乘,X - ˉ Xÿ - ˉ ÿ。正如gung在评论中指出的那样,这通常被称为叉积(如果正在引入用于统计的基本矩阵代数,那么这可能是一个有用的例子,可以复习)。ÿ一世-ÿ¯X一世-X¯ÿ一世-ÿ¯

请注意相乘时会发生什么,如果两个观察值均在均值上方较远处,则所得观察值将具有更大的正值(如果两个观察值均在均值以下相距较大距离,则同样如此)等于正数)。还要注意,如果一个观察值高于平均值,而另一个观察值低于平均值,则结果值将很大(以绝对值表示)而为负(正数乘以负数等于负数)。最后请注意,当一个值非常接近任一观察值的均值时,将两个值相乘将得出较小的数字。同样,我们可以在表格中显示此操作。

(x - x_bar) (y - y_bar)  (x - x_bar)*(y - y_bar)
-2             -1                2
 0              2                0  
 5             -3              -15 
 1              0                0
-4              2               -8

现在,如果房间里有统计学家,他们应该在这一点上沸腾了。我们可以看到协方差是什么以及如何进行计算的所有独立元素。现在,我们要做的就是总结上表中的最终结果,除以voila,协方差不再是神秘的(所有方差仅定义一个希腊符号)。ñ-1个

(x - x_bar)*(y - y_bar)
-----------------------
   2
   0
 -15
   0
+ -8
-----
 -21

-21/(5-1) = -5.25

在这一点上,您可能想加强5的来源,但这应该很简单,就像回到表中并计算观察值的数量一样(再次让样本和总体之间的差值落在另一个时间)。

ρ

ρ=CØvXÿV一种[RXV一种[Rÿ

Cov(x,x)=Var(x))。并且您使用协方差引入的所有相同概念都适用(即,如果一个序列中有许多值与均值相差很远,那么它将具有很高的方差)。在这里可能要注意,一个序列也不能具有负方差(从逻辑上讲,应该从前面给出的数学公式得出)。

Var(x)Var(y)Var(x)Var(y)

我了解在某些情况下这种水平的治疗是不合适的。参议院需要执行摘要。在这种情况下,您可以回顾一下人们在其他示例中一直在使用的简单启发式方法,但是罗马并不是一天之内就建立起来的。对于要求执行摘要的参议院来说,如果您有那么少的时间,也许您应该相信我的话,而不必进行类比和要点。


4
我完全同意这个问题超出了本论坛目的的观点。协方差的定义为
冠状病毒Xÿ=Ë[X-Ë[X]ÿ-Ë[ÿ]]
西安

14
+1,这是相当不错的。但是,我不会对概念性介绍这么批评。我已经和很多人在一起工作,而且数学上有足够的焦虑,以至于显示一个公式很可能会使他们迷失方向。我通常让他们加快速度瓦特/直觉1,然后通过数学走简单地彻底地(就像你在这里做的)之后。这样,他们只是在学习数学如何表示他们已经知道的东西,并且,如果他们确实在思想上辍学了,他们仍然会学到重要的思想。作为切线点,我通过Excel中的数学进行工作,对此我发现非常好。
gung

2
ññ-1个X一世-X¯ÿ一世-ÿ¯ρ[R在这里,例如。
gung

感谢@gung,我在第一个公式中更改了拼写错误,然后为了进行相关运算,我求了乘方差的平方根(而不是定义标准差)。在使用rho与另一个符号时,我都不觉得太强烈。如果我正在教书并有一本教科书,我可能只想符合课文。希望再有一个希腊符号不会引起混乱!
安迪W

1
如果我能赞成你的答案一百次,我会。多么清晰的解释!
朱利安·A.

10

V一种[R[X]V一种[R[ÿ]

也就是说,相关性只是协方差的一种表示形式,因此结果必须介于-1(完全反相关)和+1(完全正相关)之间,并指出接近零的值表示两个变量不相关。

与其他协方差相比,协方差是无边界的并且没有上下文。通过将协方差归一化/调整/标准化,可以更轻松地比较数据集。

您可以想象,可以使用不同的方法对统计数据(例如协方差)进行标准化/标准化。相关性和协方差之间的关系的数学公式仅反映了统计学家使用的约定(即,根据其标准差进行调整):

[R=CØvXÿV一种[R[X]V一种[R[ÿ]

5

如果您熟悉居中和标准化的想法,则x-xbar会将x居中。y同样适用。因此,协方差只是将数据居中。但是,相关不仅可以使数据居中,还可以使用标准偏差(标准化)进行缩放。乘法和求和是两个向量的点积,它表明这两个向量彼此之间的平行程度(一个向量在另一个向量上的投影)。(n-1)的除法或采用期望值将根据观察数进行缩放。有什么想法吗?



-3

取决于存在正相关还是负相关,将相关性缩放到-1和+1之间,并且是无量纲的。但是,协方差的范围从两个独立变量的零到Var(X)(如果两组数据相等)。COV(X,Y)的单位是X的单位乘以Y的单位。


6
协方差可以是负的,因此它不以0为界。我也不清楚您的最后一句话是什么意思The units of COV(X,Y) are the units of X times the units of Y.,需要详细说明吗?
Andy W

冠状病毒Xÿ=Ë[X-Ë[X]ÿ-Ë[ÿ]]

1
@ naught101,单位通过了吗?我对Nagaraj的最初评论是要进一步澄清,因为模棱两可的陈述(例如我要断言的陈述)对任何人都没有帮助。因此,为什么不能将协方差解释为“ x的单位乘以y的单位”,因为那不是事实。(对于样本协方差)可能更正确的陈述是“ 平均 偏差乘积的平均值 ”。续...
Andy W

1
现在,均值偏差肯定与原始单位不同,并且协方差的最终统计数据不仅仅取决于原始属性的均值和方差。不知道原始属性的方差,协方差本身并不能告诉您任何信息。
安迪W
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.