为什么这组数据没有协方差？

8

我对协方差如何工作的理解是，相关数据应具有较高的协方差。我遇到了一种情况，我的数据看起来很相关（如散点图所示），但协方差接近零。如果数据的相关性是相关的，如何将它们设为零？

import numpy as np
x1 = np.array([ 0.03551153,  0.01656052,  0.03344669,  0.02551755,  0.02344788,
        0.02904475,  0.03334179,  0.02683399,  0.02966126,  0.03947681,
        0.02537157,  0.03015175,  0.02206443,  0.03590149,  0.03702152,
        0.02697212,  0.03777607,  0.02468797,  0.03489873,  0.02167536])
x2 = np.array([ 0.0372599 ,  0.02398212,  0.03649548,  0.03145494,  0.02925334,
        0.03328783,  0.03638871,  0.03196318,  0.03347346,  0.03874528,
        0.03098697,  0.03357531,  0.02808358,  0.03747998,  0.03804655,
        0.03213286,  0.03827639,  0.02999955,  0.0371424 ,  0.0279254 ])
print np.cov(x1, x2)

array([[  3.95773132e-05,   2.59159589e-05],
       [  2.59159589e-05,   1.72006225e-05]])

python descriptive-statistics covariance

— 千焦耳
source

4

提示：当您查看相关性时会发生什么？协方差和相关性有什么区别？

— aleshing

2

如果要测量的数字看起来很小或以特定的比例接近，那么它们之间的差异也将很小，并且差异的乘积似乎会更小。尝试将所有数据乘以

，然后重做计算；协方差应该是

倍大

1000

$1000$

1000000

$1000000$

— 亨利

14

协方差的大小取决于数据的大小以及这些数据点在数据平均值周围的分散程度。当您查看公式时，很容易看到：

$cov_{x,y}= \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{n-1}$

在你的情况下，的越轨行为x1和x2数据点的均值x1和x2有：

x1-mean(x1)
 [1]  0.006043341 -0.012907669  0.003978501 -0.003950639 -0.006020309 -0.000423439  0.003873601
 [8] -0.002634199  0.000193071  0.010008621 -0.004096619  0.000683561 -0.007403759  0.006433301
[15]  0.007553331 -0.002496069  0.008307881 -0.004780219  0.005430541 -0.007792829

x2-mean(x2)
 [1]  0.0039622385 -0.0093155415  0.0031978185 -0.0018427215 -0.0040443215 -0.0000098315
 [7]  0.0030910485 -0.0013344815  0.0001757985  0.0054476185 -0.0023106915  0.0002776485
[13] -0.0052140815  0.0041823185  0.0047488885 -0.0011648015  0.0049787285 -0.0032981115
[19]  0.0038447385 -0.0053722615

现在，如果将这两个向量彼此相乘，您显然会得到非常小的数字：

(x1-mean(x1)) * (x2-mean(x2))
 [1] 2.394516e-05 1.202419e-04 1.272252e-05 7.279927e-06 2.434807e-05 4.163041e-09 1.197349e-05
 [8] 3.515290e-06 3.394159e-08 5.452315e-05 9.466023e-06 1.897897e-07 3.860380e-05 2.690611e-05
[15] 3.586993e-05 2.907425e-06 4.136268e-05 1.576570e-05 2.087901e-05 4.186512e-05

$n-1$

sum((x1-mean(x1)) * (x2-mean(x2))) / (length(x1)-1)
[1] 2.591596e-05

这就是为什么协方差的大小未说明强度x1和协方差的原因x2。通过标准化（或正火）的协方差，即除以的标准偏差的乘积x1和x2（非常相似的协方差，即2.609127e-05），

$r=\frac{cov_{x,y}}{s_x s_y} = \frac{\sum(x_1-\bar{x})(y_i-\bar{y})}{(n-1) s_x s_y}$

$r=0.99$

— 斯特凡
source

7

让我们来谈一谈可以快速浏览的情节和一些合理性检查（这些是人们在查看数据时可以做的事情，理所当然的事，只需掌握一些基本事实）：

$n$ $n-1$

$10^{-4}$

因此，输出中观察到的方差值是有道理的；它们都小于该值，但大于其十分之一。

$\frac14$

$0.02$ $(0.02)^2/4=10^{-4}$

通过非常粗略的分析，似乎没有什么令人惊讶的。

$0.023$ $0.015$ $8.6\times 10^{-5}$

$2.9\times 10^{-5}$

$2.9\times 10^{-5}$ $2.6\times 10^{-5}$

（对于范围从两个有效数字开始的快速信封计算而言，还不错！）

— Glen_b-恢复莫妮卡
source