为什么X和XY随机变量之间的相关系数趋于0.7

49

摘自道格拉斯·奥特曼（Douglas Altman）在第285页上写的《医学研究实用统计》：

...对于任意两个X和Y，X将与XY相关。确实，即使X和Y是随机数的样本，我们也希望X和XY的相关性为0.7

我在R中尝试过这种情况，似乎是这样的：

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

这是为什么？这背后的理论是什么？

correlation random-variable intuition

— 没有存货
source

您想解释什么部分？您是否只需要简化的方程式，以得到因x和y之间的已知相关性以及x和xy之间的协方差而导致的相关性？或者，您是否只想知道为什么这里总有协方差？

— 约翰

这是真的对任何

和

？假设

和

不相关，则

。然后我怀疑

不会与

相关。

X

$X$

Y

$Y$

X

$X$

Z

$Z$

Y = X - Z

$Y=X-Z$

X

$X$

X - Y

$X-Y$

— 亨利

69

如果和是不相关的具有相同方差的随机变量，那么我们有 $X$ $Y$ $\sigma^2$ 因此，

\begin{aligned} var (X - Y) & = var (X) + var (- Y) \\ = var (X) + var (Y) \\ = 2 σ^{2}, \\ cov (X, X - Y) & = cov (X, X) - cov (X, Y) & bilinearity of covariance operator \\ = var (X) - 0 & 0 because X and Y are uncorrelated \\ = σ^{2} . \end{aligned}

$\begin{align} \operatorname{var}(X-Y) &= \operatorname{var}(X) + \operatorname{var}(-Y)\\ &= \operatorname{var}(X) + \operatorname{var}(Y)\\ &=2\sigma^2,\\ \operatorname{cov}(X, X-Y) &= \operatorname{cov}(X,X) - \operatorname{cov}(X,Y) & \text{bilinearity of covariance operator}\\ &= \operatorname{var}(X) - 0 & 0 ~\text{because}~X ~\text{and}~ Y ~\text{are uncorrelated}\\ &= \sigma^2. \end{align}$

所以，当你发现

ρ_{X, X - Y} = \frac{cov (X, X - Y)}{\sqrt{var (X) var (X - Y)}} = \frac{σ^{2}}{\sqrt{σ^{2} \cdot 2 σ^{2}}} = \frac{1}{\sqrt{2}} .

$\rho_{X,X-Y} = \frac{\operatorname{cov}(X, X-Y)}{\sqrt{\operatorname{var}(X)\operatorname{var}(X-Y)}}= \frac{\sigma^2}{\sqrt{\sigma^2\cdot2\sigma^2}} = \frac{1}{\sqrt{2}}.$

的样本相关

和

为一个大的数据集

\frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) ((x_{i} - y_{i}) - (\bar{x} - \bar{y}))}{\sqrt{\sum_{i = 1}^{n} {(x_{i} - \bar{x})}^{2} \sum_{i = 1}^{n} {((x_{i} - y_{i}) - (\bar{x} - \bar{y}))}^{2}}}

$\frac{\sum_{i=1}^n\left(x_i - \bar{x}\right) \left((x_i-y_i) - (\bar{x}-\bar{y})\right)}{ \sqrt{\sum_{i=1}^n\left(x_i - \bar{x}\right)^2 \sum_{i=1}^n\left((x_i-y_i) - (\bar{x}-\bar{y})\right)^2}}$

x

$x$

x - y

$x-y$

从具有这些属性的种群中抽取，特殊情况下包括“随机数”，结果往往接近种群相关值

{(x_{i}, y_{i}) : 1 \leq i \leq n}

$\{(x_i,y_i)\colon 1 \leq i \leq n\}$

\frac{1}{\sqrt{2}} \approx 0.7071 \dots

$\frac{1}{\sqrt{2}} \approx 0.7071\ldots$

— 迪利普·萨瓦特（Dilip Sarwate）
source

您能否再说明一下cov(X,X)-cov(X,Y)=s^2

— -nostock

5

cov（X，X）是var（X）的别称。cov（X，Y）= 0，因为假定X和Y不相关（因此协方差= 0）。

— Dilip Sarwate

58

几何统计解释。

$n$ $2$ $X$ $Y$ $X$ $Y$

$X$ $Y$ $r=0$

$X$ $Y$

$X-Y$ $X+Y$

$X-Y$ $X+Y$ $\sqrt{2\sigma^2}$ $X$ $X-Y$ $X+Y$ $0.707...$

在此处输入图片说明

— ttnphns
source

4

分享此方法的费用为+1。

— ub

（+1）这是呈现此问题的非常巧妙的方法！

— 马特·克劳斯

啊...图片！（+1）干得好。:-)

— 红衣主教

11

我相信这里也有一个基于对称的简单直觉。由于X和Y具有相同的分布并且协方差为0，因此X±Y与X的关系应“解释” X±Y变化的一半；另一半应该用Y来解释。因此R ²应该是1/2，这意味着R是1 /√2≈0.707。

— denn333
source

r^{2} = \frac{1}{2}

$r^2=\frac 1 2$

r

$r$

\sqrt{1 / 2}

$\sqrt{1/2}$

1 / \sqrt{2}

$1/\sqrt 2$

不，这确实不是更标准的。（如果需要证据，请查看顶部的答案。已经投票的38个人没有用相同的记号进行

— 争论

r^{2} = 1 / 2

$r^2=1/2$

r = \sqrt{1 / 2}

$r=\sqrt{1/2}$

3

这是一种简单的方法来考虑为什么这里完全存在相关性。

想象一下，减去两个分布后会发生什么。如果x的值较低，则平均而言，x - y其值将小于x的值较高时。随着x的增加，然后x - y平均增加，因此呈正相关。

— 约翰
source

4

我认为您的说法并非总是正确的：“当存在数学关系时，两个随机分布之间总会存在相关性。” 例如x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$

— curious_cat

4

@curious_cat：或者，也许更让人联想起，y完全放弃。:-)

— 红衣主教