关于协方差定义的直觉


11

我试图更好地理解两个随机变量的协方差,并了解想到它的第一个人如何得出统计中通常使用的定义。我去了维基百科更好地了解它。从本文看来,良好候选度量或数量应具有以下属性:Cov(X,Y)

  1. 当两个随机变量相似时(即当一个随机变量增加另一个变量时,而当一个随机变量减小另一个变量时,它应具有正号)。
  2. 我们还希望当两个随机变量相反相似时(即,当一个随机变量增大时,另一个随机变量趋于减小),它具有负号。
  3. 最后,当两个变量彼此独立时(即它们彼此之间不互变),我们希望此协方差量为零(或可能很小?)。

根据以上属性,我们要定义。我的第一个问题是,对我来说,为什么C o v X Y = E [ X - E [ X ] Y - E [ Y ] ]Cov(X,Y)Cov(X,Y)=E[(XE[X])(YE[Y])]满足这些特性。从我们拥有的属性来看,我希望更多的类似于“导数”的方程式是理想的选择。例如,更像是“如果X的变化为正,则Y的变化也应为正”。另外,为什么要从均值中减去差异才是“正确”的事情?

一个更切线但仍然有趣的问题,是否存在一个可以满足这些特性并且仍然有意义且有用的不同定义?我之所以这样问,是因为似乎没有人质疑我们为什么要首先使用此定义(感觉,它的“总是这样”,在我看来,这是一个可怕的原因,它阻碍了科学和技术的发展。数学的好奇心和思考)。公认的定义是否是我们可以拥有的“最佳”定义?


这些是我对为什么可接受的定义有意义的想法(它只是一个直观的论点):

是变量X的一些差异(即,它从一些值改变为其他值在一段时间内)。类似地,对于定义Δ ÿΔXΔY

对于某个时间实例,我们可以通过执行以下操作来计算它们是否相关:

sign(ΔXΔY)

Delta

但是,这只能使我们及时获得一个实例所需的数量,由于它们是rv,如果我们决定仅基于1个观测值来建立两个变量的关系,则可能会过拟合。那么为什么不期望如此才能看到差异的“平均”乘积。

sign(E[ΔXΔY])

哪个应该平均捕获上面定义的平均关系!但是,这种解释的唯一问题是,我们如何测量这种差异?似乎可以通过测量与均值的差异来解决(出于某种原因,这是正确的做法)。

我想我对定义的主要问题是采用均值差。我似乎还不能为自己辩护。


关于标志的解释可以留给另一个问题,因为这似乎是一个更复杂的话题。


2
起点可能是叉积的概念或直觉(协方差只是其扩展)。如果我们有两个序列X和Y的长度相同,并且将求和的叉积定义为Sum(Xi * Yi),那么如果两个序列按相同顺序排序,则最大化,而如果一个序列最小,则最小化系列按升序排列,另一个按降序排列。
ttnphns 2014年

与均值的差异不是根本问题。重要的只是大小,与原点的差异;由于某些原因,将均值放入平均值中是自然而方便的。
ttnphns 2014年

@ttnphns您是在说,如果它们一起变位,那么协方差应该被“最大化”,如果它们相对地变位,它应该尽可能地为负数?(即最小化)为什么不将其定义为对叉积的期望?
查理·帕克

对于没有固有来源的变量,协方差是自然的。然后,我们将均值作为起点(均值具有与关联主题无关的良好属性,因此通常选择该值)。如果起源是固有的并且有意义,那么坚持下去是合理的,那么“协方差”(共同爆发)就不会对称,但是谁在乎呢?
ttnphns 2014年

1
这个答案提供了一个很好的直觉相关的协方差。
Glen_b-恢复莫妮卡2014年

Answers:


10

(X,Y)

  1. 如果X和Y都较大,则它们各自的平均值相似,我们说这对相似,因此我们将正数放在堆栈上。
  2. 如果X和Y都较小,则它们各自的平均值相似,我们可以说这对相似,并且将正数放在堆栈上。
  3. 如果X大于其平均值,而Y小于其平均值,则可以说这对货币对是不相似的,并且将负数放入堆栈中。
  4. 如果X小于其平均值,而Y大于其平均值,则可以说这对货币对是不相似的,并且将负数放在堆栈上。

然后,为了全面了解X和Y的(不相似)相似性,我们将堆栈上所有数字的值相加。正和表示变量同时在同一方向上移动。负的总和表示变量在相反方向上的移动经常发生。零和表示了解一个变量的方向并不能告诉您其他变量的方向。

重要的是要考虑“大于平均水平”,而不仅仅是“较大”(或“正”),因为这两个非负变量将被判断为相似(例如,M42和明天在帕丁顿火车站购买的票数)。

协方差公式是此过程的形式化:

Cov(X,Y)=E[(XE[X])(YE[Y])]

使用概率分布而不是蒙特卡洛模拟,并指定我们放在堆栈上的数字的大小。


哇,这是一个很好的答案。只是最后一件事,您介意在正当性上增加更多细节的原因,为什么它必须均值之间存在差异?为什么没有其他价值?为什么有道理?我认为那是使我难以完全内部化此定义的主要原因。谢谢顺便说一句!
查理·帕克

谢谢。假设在两个不同的国家有两辆大卡车。现在,大型卡车往往会承载重物。如果每次每辆卡车承担大负载时都向堆栈中添加一个正数,我们最终不得不说两辆卡车的行为非常相似。但是实际上,在任何特定时间,一辆卡车运载的货物的大小与另一辆卡车运载的货物的大小无关。他们只是碰巧都是大卡车。因此,我们的相似性度量将无济于事。这就是为什么我们必须考虑“大于平均水平”。
推测2014年

抱歉,这有点晚了,但是我决定回顾一下这个话题,但是我仍然有一个疑问,为什么它与均值不同。因为每个随机变量X和Y可能来自不同的标度,所以与它们各自的均值的区别是否重要?即,要了解“大”是什么,取决于它们的基本规模而不同。因此,为了克服规模问题,我们将其与各自的手段进行比较?
查理·帕克

1

这是我不带任何方程式的直觉方式。

  1. 它是将方差推广到更高维度的概括。动机可能来自试图描述数据的行为方式。首先,我们知道它的位置-均值。到第二阶,我们有分散-协方差。

    我想我对定义的主要问题是采用均值差。我似乎还不能为自己辩护。

    相对于分布中心评估散布。方差的最基本定义是“均值的均值偏差”。因此,对于协方差,您也必须减去均值。

  2. 想到的另一个主要动机是需要定义一种测量随机变量之间距离的方法。马氏距离和协方差是并驾齐驱的:给定高斯分布和另外两个样本具有与分布平均值相等的欧几里得距离。如果我要问您哪个样本更有可能不是从高斯分布中得出的离群值,那么欧几里得距离就不会了。马氏距离与欧几里得距离有一个显着的差异:它考虑了分布的分散性(协方差)。这使您可以概括到随机变量的距离。


1
  1. 最后,当两个变量彼此独立时(即它们彼此之间不互变),我们希望此协方差量为零(或可能很小?)。

(12)XYE[XY]E[XY]=14X^=1000XY^=1000YE[X^Y^]=250,000(X,Y)=E[(XE[X])(YE[Y])]

  1. 我们还希望当两个随机变量相反相似时(即,当一个随机变量增大时,另一个随机变量趋于减小),它具有负号。

XY=1XE[XY]=0(X,Y)=E[(XE[X])(YE[Y])]

  1. 它应该(原文如此)有一个积极的迹象时,两个随机变量相似(即当一个增加另一个则并当一个减少另一个则太)。

XY=X1E[XY](X,Y)=E[(XE[X])(YE[Y])] 赋予您想要的正值。

X=Y


1

我在想同样的问题,猜想的直觉帮助了我。为了直观显示直觉,我采用了两个随机法线向量x和y,绘制了散点图,并根据每个点与各自平均值的偏差乘积对每个点上色(蓝色为正值,红色为负值)。

从图中可以清楚地看到,乘积在右上象限和左下象限中最正,而在右下象限和左上象限中最负。乘积相加的结果将为0,因为蓝点抵消了红点。

但是您可以看到,如果我们删除了红点,则其余数据之间会呈现正相关关系,这可以通过乘积的正和(即蓝点的总和)得到验证。

在此处输入图片说明


0

在随机变量的向量空间中,现在就距离点积的定义而言,用E {(xy)^ 2}定义两个随机变量x和y之间的距离的平方是合理的,否则随机变量的关系将为E {xy}与协方差的定义非常相似,只是术语-E {x}和-E {y}用于规范化。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.