为什么X和XY随机变量之间的相关系数趋于0.7


49

摘自道格拉斯·奥特曼(Douglas Altman)在第285页上写的《医学研究实用统计》

...对于任意两个X和Y,X将与XY相关。确实,即使X和Y是随机数的样本,我们也希望X和XY的相关性为0.7

我在R中尝试过这种情况,似乎是这样的:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

这是为什么?这背后的理论是什么?


您想解释什么部分?您是否只需要简化的方程式,以得到因x和y之间的已知相关性以及x和xy之间的协方差而导致的相关性?或者,您是否只想知道为什么这里总有协方差?
约翰

这是真的对任何 ÿ?假设XZ不相关,则Y = X - Z。然后我怀疑X不会与X - Y相关。XYXZY=XZXXY
亨利

Answers:


69

如果Y ^不相关的具有相同方差的随机变量σ 2,那么我们有 VAR X - Ÿ XYσ2 因此,ρXX-ÿ=COVXX-ÿ

var(XY)=var(X)+var(Y)=var(X)+var(Y)=2σ2,cov(X,XY)=cov(X,X)cov(X,Y)bilinearity of covariance operator=var(X)00 because X and Y are uncorrelated=σ2.
所以,当你发现 Σ ñ = 1X- ˉ XX-Ÿ- ˉ X - ˉ ÿ
ρX,XY=cov(X,XY)var(X)var(XY)=σ2σ22σ2=12.
的样本相关XX-ÿ为一个大的数据集{Xÿ1ñ
i=1n(xix¯)((xiyi)(x¯y¯))i=1n(xix¯)2i=1n((xiyi)(x¯y¯))2
xxy从具有这些属性的种群中抽取,特殊情况下包括“随机数”,结果往往接近种群相关值 1{(xi,yi):1in}120.7071

您能否再说明一下cov(X,X)-cov(X,Y)=s^2
-nostock

5
cov(X,X)是var(X)的别称。cov(X,Y)= 0,因为假定X和Y不相关(因此协方差= 0)。
Dilip Sarwate

58

几何统计解释。

n 2 XYXY

XYr=0

XY

XYX+Y

XYX+Y2σ2XXYX+Y0.707...

在此处输入图片说明


4
分享此方法的费用为+1。
ub

(+1)这是呈现此问题的非常巧妙的方法!
马特·克劳斯

啊...图片!(+1)干得好。:-)
红衣主教

11

我相信这里也有一个基于对称的简单直觉。由于X和Y具有相同的分布并且协方差为0,因此X±Y与X的关系应“解释” X±Y变化的一半;另一半应该用Y来解释。因此R 2应该是1/2,这意味着R是1 /√2≈0.707。


r2=12r1/21/2

不,这确实不是更标准的。(如果需要证据,请查看顶部的答案。已经投票的38个人没有用相同的记号进行
争论

r2=1/2r=1/2

3

这是一种简单的方法来考虑为什么这里完全存在相关性。

想象一下,减去两个分布后会发生什么。如果x的值较低,则平均而言,x - y其值将小于x的值较高时。随着x的增加,然后x - y平均增加,因此呈正相关。


4
我认为您的说法并非总是正确的:“当存在数学关系时,两个随机分布之间总会存在相关性。” 例如x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$
curious_cat

4
@curious_cat:或者,也许更让人联想起,y完全放弃。:-)
红衣主教
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.