……假设我能够以一种直观的方式(直观地理解“方差”)或说:他们是数据值与“均值”的平均距离,并且方差是平方单位,我们取平方根以保持单位不变,这称为标准偏差。
让我们假设这是“接收者”明确表达和(希望)理解的。现在什么是协方差?如何在不使用任何数学术语/公式的情况下用简单的英语解释它?(即,直观的解释。;)
请注意:我确实知道该概念背后的公式和数学公式。我希望能够以一种易于理解的方式“解释”相同的内容,而无需包括数学运算。即“协方差”到底是什么意思?
……假设我能够以一种直观的方式(直观地理解“方差”)或说:他们是数据值与“均值”的平均距离,并且方差是平方单位,我们取平方根以保持单位不变,这称为标准偏差。
让我们假设这是“接收者”明确表达和(希望)理解的。现在什么是协方差?如何在不使用任何数学术语/公式的情况下用简单的英语解释它?(即,直观的解释。;)
请注意:我确实知道该概念背后的公式和数学公式。我希望能够以一种易于理解的方式“解释”相同的内容,而无需包括数学运算。即“协方差”到底是什么意思?
Answers:
有时,我们可以使用不寻常或不同的方法来“增强知识”。我希望幼儿园的人都可以得到此答复,并且也希望他们有一些乐趣,所以每个人都可以拿出您的蜡笔!
给定成对的数据,绘制其散点图。(年龄较小的学生可能需要老师为他们制作。:-)该图中的每对点,确定一个矩形:这是最小的矩形,其边平行于轴,包含这些点。因此,这些点位于右上角和左下角(“正”关系),或者位于左上角和右下角(“负”关系)。
绘制所有可能的矩形。将它们透明地着色,使正矩形变成红色(例如),使负矩形变成“反红色”(蓝色)。以这种方式,无论矩形重叠哪里,当它们相同时(蓝色和蓝色或红色和红色),它们的颜色都会增强;而当它们不同时,它们的颜色会相互抵消。
(在这个正(红色)和负(蓝色)矩形的图示中,重叠部分应该是白色的;不幸的是,此软件没有真正的“反红色”颜色。重叠部分是灰色的,因此会变暗图,但总体上红色的净值是正确的。)
现在我们准备解释协方差了。
协方差是图中红色的净量(将蓝色作为负值)。
以下是一些示例,这些示例从具有给定协方差的分布中抽取32个双正态点,从最负(最蓝)到最正(最红)排序。
它们在公共轴上绘制以使其具有可比性。矩形略有轮廓,以帮助您查看它们。这是原始版本的更新(2019)版本:它使用可以正确消除重叠矩形中的红色和青色的软件。
让我们推断出协方差的一些属性。 实际绘制了几个矩形的任何人都可以访问这些属性。:-)
双线性。因为红色的数量取决于图的大小,所以协方差与x轴上的比例和y轴上的比例直接成比例。
相关性。协方差随着点接近向上倾斜线而增加,并且随着点接近向下倾斜线而减小。这是因为在前一种情况下,大多数矩形为正,而在后一种情况下,大多数为负。
与线性关联的关系。因为非线性关联可以创建正负矩形的混合,所以它们会导致不可预测的(且不是很有用)协方差。线性关联可以通过前面的两个特征完全解释。
对异常值的敏感性。几何离群值(远离质量的一个点)将与其他所有点关联创建许多大矩形。仅此一项就可以在整个图像中产生净的正数或负数红色。
顺便说一下,这种协方差的定义与通常的定义只有一个普遍的比例常数(与数据集大小无关)不同。数学上倾斜的人可以很容易地进行代数证明,即此处给出的公式始终是通常协方差的两倍。
为了详细说明我的观点,我曾经教过协方差,以度量和y这两个变量之间(平均)的协方差。
回忆一下基本公式(解释简单,入门课程无需谈论数学期望)非常有用:
让我们清楚地看到,每个观察,,可能正面或负面贡献的协方差,根据从两个变量的均值他们偏差的产品ˉ X和ˉ ÿ。请注意,我在这里不是在说数量级,而只是在说第i个观测值的贡献的迹象。
这就是我在下图中描述的内容。使用线性模型(左,;右,y = 0.1 x + ε)生成人工数据,其中ε是从均值为零且SD = 2的高斯分布中得出的,而x是从x上的均匀分布中得出的区间[ 0 ,20 ])。
+ -
+ 30 2
- 0 28
+ -
+ 18 14
- 12 16
协方差是一个变量在另一个变量上升时的上升幅度的度量。
我正在回答自己的问题,但我认为对于发现这篇文章的人们来说,检查一下本页上的一些解释将非常有用。
我正在解释一个非常明确的答案之一(由用户“ Zhop”提供)。我这样做是为了防止某个人从现在起访问该帖子时该网站关闭或该页面被删除;)
协方差是两个变量一起变化多少的度量。将此与方差进行比较,方差只是一种度量(或变量)变化的范围。
在研究社会模式时,您可能会假设较富裕的人可能受过更多的教育,因此,您将尝试查看财富和教育程度如何紧密结合在一起。您将使用协方差度量来确定这一点。
...
当您问它如何应用于统计数据时,我不确定您的意思。这是许多统计课程中教授的一项措施。您是说什么时候使用它的?
当您想查看两个或多个变量相互之间有多少变化时,可以使用它。
想想团队中的人。看看它们在地理位置上的差异。当团队比赛或练习时,各个成员之间的距离很小,我们可以说他们在同一位置。而且,当他们的位置发生变化时,所有个人都会一起发生变化(例如,乘坐公共汽车去玩游戏)。在这种情况下,我们可以说它们具有较高的协方差水平。但是当他们不玩时,协方差率可能会很低,因为它们都将以不同的速度到达不同的地方。
因此,您可以根据另一个团队成员在高精度地练习或玩游戏时的位置来预测他们的位置。我相信协方差度量将接近1。但是,当他们不练习或玩游戏时,根据团队成员的位置来预测一个人的位置的机会要小得多。它将接近于零,虽然不是零,但可能接近零,因为有时团队成员会成为朋友,并且可能会在自己的时间在一起。
但是,如果您在美国随机选择一个人,并尝试使用其中一个来预测另一个人的位置,则可能会发现协方差为零。换句话说,一个随机选择的人在美国的位置与另一个人之间绝对没有关系。
添加另一个(由“ CatofGrey”提供)以帮助增强直觉:
在概率论和统计学中,协方差是两个随机变量一起变化的量度(不同于方差,后者测量一个变量的变化量)。
如果两个变量趋于一起变化(也就是说,当其中一个变量高于其期望值时,另一个变量也趋于高于其期望值),则两个变量之间的协方差将为正。另一方面,如果其中一个变量高于其期望值,而另一个变量趋于低于其期望值,则两个变量之间的协方差将为负。
这两个让我了解了协方差,因为我以前从未了解过它!简直太神奇了!!
我非常喜欢Whuber的回答,因此我收集了更多资源。协方差既描述变量的分布范围,又描述它们之间的关系。
协方差使用矩形来描述观测值与散点图上的平均值之间的距离:
如果矩形具有长边和高宽度,或者具有短边和短宽度,则可以提供两个变量一起移动的证据。
如果一个矩形的两个侧面对于该变量而言相对较长,而两个侧面对于另一个变量而言相对较短,则此观察结果可证明这些变量不能很好地一起移动。
如果矩形位于第二或第四象限,则当一个变量大于平均值时,另一个变量小于平均值。一个变量的增加与另一个变量的减少相关。
我在http://sciguides.com/guides/covariance/上找到了一个很酷的可视化视图,它解释了如果您只知道平均值,则协方差是什么。
这是用图片解释协方差的另一种尝试。下图中的每个面板均包含50个点,这些点是根据双变量分布模拟的,其中x和y的相关性为0.8,方差如行和列标签所示。协方差显示在每个面板的右下角。
任何对此有兴趣的人...这是R代码:
library(mvtnorm)
rowvars <- colvars <- c(10,20,30,40,50)
all <- NULL
for(i in 1:length(colvars)){
colvar <- colvars[i]
for(j in 1:length(rowvars)){
set.seed(303) # Put seed here to show same data in each panel
rowvar <- rowvars[j]
# Simulate 50 points, corr=0.8
sig <- matrix(c(rowvar, .8*sqrt(rowvar)*sqrt(colvar), .8*sqrt(rowvar)*sqrt(colvar), colvar), nrow=2)
yy <- rmvnorm(50, mean=c(0,0), sig)
dati <- data.frame(i=i, j=j, colvar=colvar, rowvar=rowvar, covar=.8*sqrt(rowvar)*sqrt(colvar), yy)
all <- rbind(all, dati)
}
}
names(all) <- c('i','j','colvar','rowvar','covar','x','y')
all <- transform(all, colvar=factor(colvar), rowvar=factor(rowvar))
library(latticeExtra)
useOuterStrips(xyplot(y~x|colvar*rowvar, all, cov=all$covar,
panel=function(x,y,subscripts, cov,...){
panel.xyplot(x,y,...)
print(cor(x,y))
ltext(14,-12, round(cov[subscripts][1],0))
}))
我喜欢@whuber的回答-在我脑海中只有一个模糊的想法出现之前,我才知道如何可视化协方差,但是那些矩形图是个天才。
但是,由于协方差公式涉及均值,并且OP最初的问题确实表明“接收方”确实理解了均值的概念,因此我认为在适应@whuber的矩形图以将每个数据点与均值进行比较时会遇到困难。 x和y的均值,因为它更多地表示协方差公式中的情况。我认为它实际上最终看起来相当直观:
每个图中间的蓝点是x的平均值(x_mean)和y的平均值(y_mean)。
矩形比较每个数据点的x-x_mean和y-y_mean值。
出现以下情况时,矩形为绿色:
出现以下情况时,矩形为红色:
协方差(和相关性)可以是强负和强正。当图形以一种颜色为主,而另一种颜色为主时,则意味着数据大多遵循一致的模式。
两个不同变量x和y的协方差的实际值基本上是所有绿色区域减去所有红色区域的总和,然后除以数据点的总数-实际上是图形的平均绿色度与红色度。
听起来/外观如何?
我只简单解释一下相关性,这很直观。我会说:“相关性衡量两个变量X和Y之间关系的强度。相关性在-1和1之间,当相关性很强时其绝对值将接近1。协方差只是相关性乘以的标准偏差。因此,尽管相关性是无量纲的,但协方差是变量X和变量Y的单位乘积。
具有较高的正协方差(相关性)的两个变量是房间中的人数和房间中的手指数量。(随着人数的增加,我们预计手指的数量也会增加。)
可能具有负协方差(相关性)的东西将是一个人的年龄以及他们头上的毛囊的数量。或者,一个人的脸(在特定年龄段)的青春痘数量,以及一周内有多少次约会。我们希望长寿的人少染发,长痘痘的人少染发。这些都是负相关的。