您将如何向仅理解均值的人解释协方差?


207

……假设我能够以一种直观的方式(直观地理解“方差”)或说:他们是数据值与“均值”的平均距离,并且方差是平方单位,我们取平方根以保持单位不变,这称为标准偏差。

让我们假设这是“接收者”明确表达和(希望)理解的。现在什么是协方差?如何在不使用任何数学术语/公式的情况下用简单的英语解释它?(即,直观的解释。;)

请注意:我确实知道该概念背后的公式和数学公式。我希望能够以一种易于理解的方式“解释”相同的内容,而无需包括数学运算。即“协方差”到底是什么意思?


1
@西安-您如何通过简单的线性回归准确地定义它?我真的很想知道……
博士

3
假设您已经有两个变量x y 的散点图,其原点为(0,0),只需在x = mean(x)(垂直)和y = mean(x)(水平)处画两条线:使用这个新的坐标系(原点位于(mean(x),mean(y)),在右上象限和左下象限中添加“ +”号,在其他两个象限中添加“-”号;你得到的协方差,这是基本的符号@Peter说什么缩放x和y单位(通过SD)导致更可解释的总结,如讨论。随后的线程
CHL

@chl-您能否将其发布为答案,并可能使用图形来描绘它!
博士

我在此网站上找到了视频,因为我更喜欢图片而不是抽象的说明,因此对我有帮助。带有视频的网站专门使用此图像:![在此处输入图像描述 ](i.stack.imgur.com/xGZFv.png
Karl Morrison

Answers:


374

有时,我们可以使用不寻常或不同的方法来“增强知识”。我希望幼儿园的人都可以得到此答复,并且也希望他们有一些乐趣,所以每个人都可以拿出您的蜡笔!

给定成对的数据,绘制其散点图。(年龄较小的学生可能需要老师为他们制作。:-)该图中的每对点,确定一个矩形:这是最小的矩形,其边平行于轴,包含这些点。因此,这些点位于右上角和左下角(“正”关系),或者位于左上角和右下角(“负”关系)。(x,y)(xi,yi)(xj,yj)

绘制所有可能的矩形。将它们透明地着色,使正矩形变成红色(例如),使负矩形变成“反红色”(蓝色)。以这种方式,无论矩形重叠哪里,当它们相同时(蓝色和蓝色或红色和红色),它们的颜色都会增强;而当它们不同时,它们的颜色会相互抵消。

正负矩形

在这个正(红色)和负(蓝色)矩形的图示中,重叠部分应该是白色的;不幸的是,此软件没有真正的“反红色”颜色。重叠部分是灰色的,因此会变暗图,但总体上红色净值是正确的。

现在我们准备解释协方差了。

协方差是图中红色的净量(将蓝色作为负值)。

以下是一些示例,这些示例从具有给定协方差的分布中抽取32个双正态点,从最负(最蓝)到最正(最红)排序。

协方差图,2019年更新

它们在公共轴上绘制以使其具有可比性。矩形略有轮廓,以帮助您查看它们。这是原始版本的更新(2019)版本:它使用可以正确消除重叠矩形中的红色和青色的软件。

让我们推断出协方差的一些属性。 实际绘制了几个矩形的任何人都可以访问这些属性。:-)

  • 双线性。因为红色的数量取决于图的大小,所以协方差与x轴上的比例和y轴上的比例直接成比例。

  • 相关性。协方差随着点接近向上倾斜线而增加,并且随着点接近向下倾斜线而减小。这是因为在前一种情况下,大多数矩形为正,而在后一种情况下,大多数为负。

  • 与线性关联的关系。因为非线性关联可以创建正负矩形的混合,所以它们会导致不可预测的(且不是很有用)协方差。线性关联可以通过前面的两个特征完全解释。

  • 对异常值的敏感性。几何离群值(远离质量的一个点)将与其他所有点关联创建许多大矩形。仅此一项就可以在整个图像中产生净的正数或负数红色。

顺便说一下,这种协方差的定义与通常的定义只有一个普遍的比例常数(与数据集大小无关)不同。数学上倾斜的人可以很容易地进行代数证明,即此处给出的公式始终是通常协方差的两倍。


92
+1哇。这甚至可以为那些已经以为自己知道这是什么的人解释协方差。
亚伦

7
+1我非常喜欢阅读您的回复。我将绘制一些矩形,然后让我的儿子绘制它们:)
chl

18
现在,如果只有所有介绍性的统计概念都能以这种清晰的方式呈现给学生……
MannyG,2011年

4
这很漂亮。而且非常非常清楚。
本杰明·玛科·希尔

4
@fcoppens确实,有一个传统的解释会按照您的建议进行。我想这一个,因为我不希望引入一个想法是不必要的-即建设重心。那将使五岁的孩子用一盒蜡笔无法做出解释。我最后得出的某些结论也不是立即得出的。例如,协方差对某些类型的离群值变得不再那么明显。(x¯,y¯)
ub

61

为了详细说明我的观点,我曾经教过协方差,以度量y这两个变量之间(平均)的协方差。xy

回忆一下基本公式(解释简单,入门课程无需谈论数学期望)非常有用:

cov(x,y)=1ni=1n(xix¯)(yiy¯)

让我们清楚地看到,每个观察,,可能正面或负面贡献的协方差,根据从两个变量的均值他们偏差的产品ˉ Xˉ ÿ。请注意,我在这里不是在说数量级,而只是在说第i个观测值的贡献的迹象。(xi,yi)x¯y¯

这就是我在下图中描述的内容。使用线性模型(左,;右,y = 0.1 x + ε)生成人工数据,其中ε是从均值为零且SD = 2的高斯分布中得出的,而x是x上的均匀分布中得出的区间[ 0 20 ])。y=1.2x+εy=0.1x+εεSD=2x[0,20]

在此处输入图片说明

xy(0,0)(x¯,y¯)

   +  -
+ 30  2
-  0 28

xiyiy¯xyb=Cov(x,y)/Var(x)

xi

   +  -
+ 18 14
- 12 16

xiyi

xy(x/10,y)(x,y/10)xy(x,y)(x¯,y¯)xy


27

协方差是一个变量在另一个变量上升时的上升幅度的度量。


1
是否总是朝着“相同”方向发展?另外,它是否也适用于逆关系(即,一个上升,另一个下降)?
博士

4
@nupul好吧,“ up”的反义词是“ down”,而“ positive”的反义词是“ negative”。我试图给出一句话的答案。您的完整得多。即使您的“两个变量如何一起变化”也比较完整,但是,我认为有点难以理解。
彼得·富勒姆

1
+1使它适合一个简单的句子,但这不是相关性吗?我的意思是,我知道更大的cov =>更大的corr,但是有了这句话,我希望答案像“ 80%”,相当于corr = 0.8。cov是否也描述了数据中的方差?即。“协方差与一个变量在另一个变量上升时所占的比例成正比,并且也与两个变量中的数据分布成正比”,或者是什么?
naught101 '02 -2-28

4
没错,彼得,这就是@ naught101发表评论的原因:您的描述听起来像是变化的速率,因此其单位将是[一个变量的单位] / [另一个变量的单位](如果我们将其解释为导数的话) )或将只是[一个变量的单位](如果我们将其解释为纯差异)。这些既不是协方差(其度量单位是两个变量的单位乘积),也不是相关性(无单位)。
ub

1
XY1,YXY

12

正在回答自己的问题,但我认为对于发现这篇文章的人们来说,检查一下本页上的一些解释将非常有用。

我正在解释一个非常明确的答案之一(由用户“ Zhop”提供)。我这样做是为了防止某个人从现在起访问该帖子时该网站关闭或该页面被删除;)

协方差是两个变量一起变化多少的度量。将此与方差进行比较,方差只是一种度量(或变量)变化的范围。

在研究社会模式时,您可能会假设较富裕的人可能受过更多的教育,因此,您将尝试查看财富和教育程度如何紧密结合在一起。您将使用协方差度量来确定这一点。

...

当您问它如何应用于统计数据时,我不确定您的意思。这是许多统计课程中教授的一项措施。您是说什么时候使用它的?

当您想查看两个或多个变量相互之间有多少变化时,可以使用它。

想想团队中的人。看看它们在地理位置上的差异。当团队比赛或练习时,各个成员之间的距离很小,我们可以说他们在同一位置。而且,当他们的位置发生变化时,所有个人都会一起发生变化(例如,乘坐公共汽车去玩游戏)。在这种情况下,我们可以说它们具有较高的协方差水平。但是当他们不玩时,协方差率可能会很低,因为它们都将以不同的速度到达不同的地方。

因此,您可以根据另一个团队成员在高精度地练习或玩游戏时的位置来预测他们的位置。我相信协方差度量将接近1。但是,当他们不练习或玩游戏时,根据团队成员的位置来预测一个人的位置的机会要小得多。它将接近于零,虽然不是零,但可能接近零,因为有时团队成员会成为朋友,并且可能会在自己的时间在一起。

但是,如果您在美国随机选择一个人,并尝试使用其中一个来预测另一个人的位置,则可能会发现协方差为零。换句话说,一个随机选择的人在美国的位置与另一个人之间绝对没有关系。

添加另一个(由“ CatofGrey”提供)以帮助增强直觉:

在概率论和统计学中,协方差是两个随机变量一起变化的量度(不同于方差,后者测量一个变量的变化量)。

如果两个变量趋于一起变化(也就是说,当其中一个变量高于其期望值时,另一个变量也趋于高于其期望值),则两个变量之间的协方差将为正。另一方面,如果其中一个变量高于其期望值,而另一个变量趋于低于其期望值,则两个变量之间的协方差将为负。

这两个让我了解了协方差,因为我以前从未了解过它!简直太神奇了!!


15
尽管这些描述在质量上具有启发性,但令人遗憾的是它们并不完整:它们既没有将协方差与相关性区分开(实际上,第一个描述似乎使两者混淆了),也没有提出线性协方差的基本假设。同样,它们都没有解决协方差(线性地)取决于每个变量的大小的重要方面。
ub

@whuber-同意!因此,尚未将我的答案标记为:)(尚未;)
博士

12

我非常喜欢Whuber的回答,因此我收集了更多资源。协方差既描述变量的分布范围,又描述它们之间的关系。

协方差使用矩形来描述观测值与散点图上的平均值之间的距离:

  • 如果矩形具有长边和高宽度,或者具有短边和短宽度,则可以提供两个变量一起移动的证据。

  • 如果一个矩形的两个侧面对于该变量而言相对较长,而两个侧面对于另一个变量而言相对较短,则此观察结果可证明这些变量不能很好地一起移动。

  • 如果矩形位于第二或第四象限,则当一个变量大于平均值时,另一个变量小于平均值。一个变量的增加与另一个变量的减少相关。

我在http://sciguides.com/guides/covariance/上找到了一个很酷的可视化视图,它解释了如果您只知道平均值,则协方差是什么。


7
+1不错的解释(尤其是一句话简介)。该链接很有趣。由于在Wayback机器上没有存档,因此可能是新的。因为它与我(三岁)的答案非常相似,一直到红色代表正向关系和蓝色代表负向关系,我怀疑这是该站点上材料的(未分配)派生词。
ub

4
“炫酷可视化”链接已消失...。
whuber

1
@MSIS不可能弄清楚,因为圆上有很多可能的分布。但是,如果您指的是均匀分布,则没有什么可计算的,因为(正如我记得您在stats.stackexchange.com/q/414365/919中在线程中所说的那样),相关系数必须等于其自身的负值QED。
ub

1
XX0XX2X1,XX2:11
whuber

1
α,a<αb((ba)mod2π)/(2π).

10

这是用图片解释协方差的另一种尝试。下图中的每个面板均包含50个点,这些点是根据双变量分布模拟的,其中x和y的相关性为0.8,方差如行和列标签所示。协方差显示在每个面板的右下角。

不同的协方差,所有相关系数= 0.8

任何对此有兴趣的人...这是R代码:

library(mvtnorm)

rowvars <- colvars <- c(10,20,30,40,50)

all <- NULL
for(i in 1:length(colvars)){
  colvar <- colvars[i]
  for(j in 1:length(rowvars)){
    set.seed(303)  # Put seed here to show same data in each panel
    rowvar <- rowvars[j]
    # Simulate 50 points, corr=0.8
    sig <- matrix(c(rowvar, .8*sqrt(rowvar)*sqrt(colvar), .8*sqrt(rowvar)*sqrt(colvar), colvar), nrow=2)
    yy <- rmvnorm(50, mean=c(0,0), sig)
    dati <- data.frame(i=i, j=j, colvar=colvar, rowvar=rowvar, covar=.8*sqrt(rowvar)*sqrt(colvar), yy)
    all <- rbind(all, dati)
  }
}
names(all) <- c('i','j','colvar','rowvar','covar','x','y')
all <- transform(all, colvar=factor(colvar), rowvar=factor(rowvar))
library(latticeExtra)
useOuterStrips(xyplot(y~x|colvar*rowvar, all, cov=all$covar,
                      panel=function(x,y,subscripts, cov,...){
                        panel.xyplot(x,y,...)
                        print(cor(x,y))
                        ltext(14,-12, round(cov[subscripts][1],0))
                      }))

10

我喜欢@whuber的回答-在我脑海中只有一个模糊的想法出现之前,我才知道如何可视化协方差,但是那些矩形图是个天才。

但是,由于协方差公式涉及均值,并且OP最初的问题确实表明“接收方”确实理解了均值的概念,因此我认为在适应@whuber的矩形图以将每个数据点与均值进行比较时会遇到困难。 x和y的均值,因为它更多地表示协方差公式中的情况。我认为它实际上最终看起来相当直观: “具有不同相关性的变量的协方差图”

每个图中间的蓝点是x的平均值(x_mean)和y的平均值(y_mean)。

矩形比较每个数据点的x-x_mean和y-y_mean值。

出现以下情况时,矩形为绿色:

  • x和y均大于各自的均值
  • x和y均小于各自的均值

出现以下情况时,矩形为红色:

  • x大于x_mean但y小于y_mean
  • x小于x_mean但y大于y_mean

协方差(和相关性)可以是强负和强正。当图形以一种颜色为主,而另一种颜色为主时,则意味着数据大多遵循一致的模式。

  • 如果图形的绿色比红色多,则意味着y通常在x增加时增加。
  • 如果图形中的红色多于绿色,则表示y通常在x增大时减小。
  • 如果图形不是由一种颜色或另一种颜色主导,则意味着x和y如何相互关联的模式并不多。

两个不同变量x和y的协方差的实际值基本上是所有绿色区域减去所有红色区域的总和,然后除以数据点的总数-实际上是图形的平均绿色度与红色度。

听起来/外观如何?


3

方差是指随机变量相对于其期望值的变化程度,由于随机变量所代表的潜在过程的随机性。

协方差是两个不同的随机变量相对于彼此变化的程度。当随机变量是由相同的基础过程或其衍生物驱动时,可能会发生这种情况。这些随机变量表示的过程要么相互影响,要么是相同的过程,但是其中一个随机变量是从另一个变量派生的。


2

我只简单解释一下相关性,这很直观。我会说:“相关性衡量两个变量X和Y之间关系的强度。相关性在-1和1之间,当相关性很强时其绝对值将接近1。协方差只是相关性乘以的标准偏差。因此,尽管相关性是无量纲的,但协方差是变量X和变量Y的单位乘积。


10
这似乎是不够的,因为没有提到线性。X和Y可能具有很强的二次关系,但相关系数为零。
markseeto​​ 2012年

0

具有较高的正协方差(相关性)的两个变量是房间中的人数和房间中的手指数量。(随着人数的增加,我们预计手指的数量也会增加。)

可能具有负协方差(相关性)的东西将是一个人的年龄以及他们头上的毛囊的数量。或者,一个人的脸(在特定年龄段)的青春痘数量,以及一周内有多少次约会。我们希望长寿的人少染发,长痘痘的人少染发。这些都是负相关的。


2
协方差不一定可以与相关性互换-前者非常依赖于单位。关联是介于-1和1之间的数字,是表示协方差IMO的“强度”的无单位标量,您的答案尚不清楚
博士

毫无疑问,答案是协方差和相关性可以互换使用。
sapo_cosmico
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.