居中意味着减少协方差吗?


11

假设我有两个非独立的随机变量,并且想在不损失过多“信号”的情况下尽可能减小它们之间的协方差,这是否意味着居中?我在某处读到,意思是居中将相关性降低了一个重要因素,所以我认为对协方差也应如此。

Answers:


30

如果和是随机变量,而和是常数,则 居中是和的特例,因此居中不会影响协方差。Xÿ一个b

冠状病毒X+一个ÿ+b=Ë[X+一个-Ë[X+一个]ÿ+b-Ë[ÿ+b]]=Ë[X+一个-Ë[X]-Ë[一个]ÿ+b-Ë[ÿ]-Ë[b]]=Ë[X+一个-Ë[X]-一个ÿ+b-Ë[ÿ]-b]=Ë[X-Ë[X]ÿ-Ë[ÿ]]=冠状病毒Xÿ
一个=-Ë[X]b=-Ë[ÿ]


另外,由于相关性定义为 我们可以看到 因此,特别地,相关性也不受居中影响。

Corr(X,Y)=Cov(X,Y)Var(X)Var(Y),
Corr(X+a,Y+b)=Cov(X+a,Y+b)Var(X+a)Var(Y+b)=Cov(X,Y)Var(X)Var(Y),


那是故事的人口版本。示例版本是相同的:如果我们使用 作为我们之间的协方差估计配对样本和然后

Cov^(X,Y)=1ni=1n(Xi1nj=1nXj)(Yi1nj=1nYj)
XY(X1,Y1),,(Xn,Yn)
Cov^(X+a,Y+b)=1ni=1n(Xi+a1nj=1n(Xj+a))(Yi+b1nj=1n(Yj+b))=1ni=1n(Xi+a1nj=1nXjnna)(Yi+b1nj=1nYjnnb)=1ni=1n(Xi1nj=1nXj)(Yi1nj=1nYj)=Cov^(X,Y)
for任何和。ab


感谢您的详细答案。这是否意味着对于样本协方差,样本大小也没有任何影响?即减少样本量不会减少样本协方差?
lvdp

3
@lvdp这可能应该是一个单独的问题。
累计

减小的样本大小只能与其他样本一起使用。因此,不同的样本可能显示出不同的协方差。但是,由于将样本协方差定义为平均值,因此原则上会按比例缩放样本大小。
Nick Cox

5

和的协方差的定义是。该公式中的表达式的居中版本。因此,当我们采用协方差时,我们已经使居中,并且居中是一个幂等算子。变量居中后,再次应用居中过程不会更改它。如果公式不采用变量的居中形式,则将产生各种奇怪的影响,例如温度和另一个变量之间的协方差会有所不同,具体取决于我们以摄氏度还是开尔文测量温度。XÿË[X-Ë[X]ÿ-Ë[ÿ]]X-Ë[X]XX


3

“某处”往往是一个不可靠的来源。

协方差/相关性通过显式居中定义。如果您不对数据进行居中,那么您就不在计算协方差/相关性。(正好是:皮尔逊相关性)

主要区别在于您是基于理论模型(例如,预期值应恰好为0)还是基于数据(算术平均值)进行居中。不难看出,算术平均值将产生比任何其他中心小的协方差。

然而,较小的协方差并不意味着较小的相关性,或者相反。假设我们有数据X =(1,2)和Y =(2,1)。很容易看出,以算术平均值为中心,这将产生完全负相关,而如果我们知道生成过程平均产生0,则数据实际上是正相关的。因此,在此示例中,我们将居中-但理论期望值为0。

这很容易出现。考虑我们有一个11x11的传感器阵列,其单元编号为-5到+5。在寻找传感器事件的相关性时,在此处使用我们传感器阵列的“物理”平均值确实有意义(而不是算术平均值)(如果我们枚举0到10的像元,则将5用作固定均值,并且我们会得到完全相同的结果,因此索引选择会从分析中消失-很好)。


感谢@ Anony-Mousse,样本协方差是否取决于样本量?也就是说,较小的样本量将产生较小的协方差(居中之前)。
lvdp

1
显然取决于样本。平均而言-我不知道。我希望较小的样本在大多数情况下具有更大的可变性,因此通常可能会有更多的极端值。但这只是一种直觉。
已退出-Anony-Mousse
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.