绑定三个随机变量的相关性


28

有三个随机变量。三个变量之间的三个相关性是相同的。那是,x,y,z

ρ=cor(x,y)=cor(x,z)=cor(y,z)

您可以为给出的最严格限制是什么?ρ


1
大概用“ pho”表示rho()。但是,您的问题尚不清楚。您所说的“您能给的最严格的界限”是什么意思?ρ
gung-恢复莫妮卡

好吧,变量的名称只是一个哑元。最严格的界限,我的意思是类似[-1,1]的相关性,但这显然不是最严格的界限。
2013年

您是说rho = cor(x,y)= cor(x,z)= cor(y,z),rho的限制是什么?
user31264

是的,我的意思是rho = cor(x,y)= cor(x,z)= cor(y,z),rho的限制是什么。Dilip,您能否扩展为说rho必须为非负值,即> = 0?
2013年

1
可以参考的一本教科书是Seber&Lee的“线性回归分析”(至少是第一版……)
kjetil b halvorsen

Answers:


29

公共相关可以具有值但不能具有。如果,那么不能等于但实际上是。三个随机变量的公共相关性的最小值是。更一般地,当随机变量的最小公共相关性是 向量时,它们位于维空间中(维)单纯形的顶点,则其最小公共相关性是。ρ+11ρX,Y=ρX,Z=1ρY,Z1+112n1n1n1n

考虑单位方差随机变量之和的 方差。我们有 其中是平均值值的的的相关系数。但是由于,我们很容易从 得到 X i var n i = 1 X i nXi ˉ ρ

var(i=1nXi)=i=1nvar(Xi)+i=1njincov(Xi,Xj)=n+i=1njinρXi,Xj(1)=n+n(n1)ρ¯
ρ¯(n2)1 ˉ ρ- 1var(iXi)0(1)
ρ¯1n1.

因此,相关系数的平均值 至少为 。如果所有相关系数都具有相同的值,则它们的平均值也等于,因此我们有 是否可以具有公共相关值等于随机变量?是。假设是不相关的 单位方差随机变量,并设置 。然后,,而 ρρρ-11n1ρρρ-1

ρ1n1.
ρ XiYi=Xi11n1Xi ë[ÿ]=0变种Ý=ñ - 1Yi=Xi1nj=1nXj=XiX¯E[Yi]=0 covYiYj=2n1
var(Yi)=(n1n)2+(n1)(1n)2=n1n
和 给出 因此,是达到的最小公共相关值的随机变量。注意,顺便说一句,即 ,因此,被视为矢量,随机变量位于一个的维超平面 ρÿÿĴ=COVÝÿĴ
cov(Yi,Yj)=2(n1n)(1n)+(n2)(1n)2=1n
Yi1
ρYi,Yj=cov(Yi,Yj)var(Yi)var(Yj)=1/n(n1)/n=1n1.
YiiYi=0n1n1n1iYi=0(n1)n维空间。

25

最严格的界限是。1/2ρ1 所有这些值实际上都可以出现-没有不可能。

为了表明结果没有什么特别深刻或神秘的问题,此答案首先提出了一个完全基本的解决方案,只需要一个显而易见的事实,即方差(即平方的期望值)必须为非负数。其次是一个通用的解决方案(使用稍微复杂的代数事实)。

基本解决方案

的任何线性组合的方差必须为非负数。x,y,z 令这些变量的方差分别为和。全部都不为零(否则将不会定义某些相关性)。利用方差的基本属性,我们可以计算υ 2σ2,τ2,υ2

0Var(αx/σ+βy/τ+γz/υ)=α2+β2+γ2+2ρ(αβ+βγ+γα)

对于所有实数。(α,β,γ)

假设,一点代数运算就意味着这等于α+β+γ0

ρ1ρ13((α2+β2+γ2)/3(α+β+γ)/3)2.

右边的平方项是的两个幂均值的比率。所述初级功率均值不等式(与重量)声称,比不能超过(和将等于时)。然后再代数1 / 3 1 / 3 1 / 3 1 1 α = β = γ 0(α,β,γ)(1/3,1/3,1/3)11α=β=γ0

ρ1/2.

下面的的显式示例(涉及变量正态变量)显示,所有这样的值实际上确实是作为相关出现的。本示例仅使用多元法线的定义,否则不调用微积分或线性代数的结果。X ÿ Ž - 1 / 2 ρ 1n=3(x,y,z)1/2ρ1

一般解决方案

总览

任何相关矩阵都是标准化随机变量的协方差矩阵,因此与所有相关矩阵一样,它必须是正半定的。等效地,其特征值是非负的。这对施加了一个简单的条件:它不得小于(当然不能超过)。相反,任何这样的实际上都对应于某些三变量分布的相关矩阵,证明这些界限是最严格的。- 1 / 2 1 ρρ1/21ρ


上条件的推导ρ

考虑所有非对角线值均等于的 ×相关矩阵(问题涉及的情况但是这种泛化不再难于分析。)我们称其为 根据定义,是的特征值,前提是存在一个非零向量使得ñ ρ n = 3 Cρ n λ X λnnρ.n=3,C(ρ,n).λxλ

C(ρ,n)xλ=λxλ.

在本例中很容易找到这些特征值,因为

  1. 令,计算1=(1,1,,1)

    C(ρ,n)1=(1+(n1)ρ)1.
  2. 令仅在位置带有(对于),计算得出1 Ĵ Ĵ = 2 3 ... Ñyj=(1,0,,0,1,0,,0)1jthj=2,3,,n

    C(ρ,n)yj=(1ρ)yj.

因为到目前为止找到的特征向量跨越了整个维空间(证明:简单的行归约显示了其行列式的绝对值等于,该值非零),所以它们构成了所有特征向量的基础。因此,我们找到了所有特征值,并确定它们是或(后者具有多重)。除了众所周知的不等式满足所有相关性之外,第一特征值的非负性还意味着nÑ 1 + ñ - 1 ρ 1 - ρ ñ - 1 - 1 ρ 1nn1+(n1)ρ1ρn11ρ1

ρ1n1

而第二特征值的非负性则没有施加新条件。


条件充分证明

含义在两个方向上都起作用:假设矩阵是非负定的,因此是有效的相关矩阵。例如,它是多正态分布的相关矩阵。具体来说,写Çρ Ñ 1/(n1)ρ1,C(ρ,n)

Σ(ρ,n)=(1+(n1)ρ)Inρ(1ρ)(1+(n1)ρ)11

对的逆时 例如,当C(ρ,n)1/(n1)<ρ<1.n=3

Σ(ρ,3)=1(1ρ)(1+2ρ)(ρ+1ρρρρ+1ρρρρ+1).

让随机变量的向量具有分布函数(X1,X2,,Xn)

fρ,n(x)=exp(12xΣ(ρ,n)x)(2π)n/2((1ρ)n1(1+(n1)ρ))1/2

其中。例如,当等于x=(x1,x2,,xn)n=3

1(2π)3(1ρ)2(1+2ρ)exp((1+ρ)(x2+y2+z2)2ρ(xy+yz+zx)2(1ρ)(1+2ρ)).

这随机变量的相关矩阵为nC(ρ,n).

数字

密度函数轮廓 从左到右。注意密度如何从集中在平面附近转变为集中在线附近。fρ,3.ρ=4/10,0,4/10,8/10x+y+z=0x=y=z

和的特殊情况也可以通过简并分布来实现。除了要指出的是,在前一种情况下,可以认为超平面,其中它是均值均值相等的总和-正态分布,而在后一种情况下(完全正相关),它在生成的行上受支持,该行的均值为正态分布。ρ=1/(n1)ρ=1x.1=0010


有关非变性的更多信息

对该分析的回顾清楚地表明,相关矩阵的等级为,的等级为的(因为只有一个特征向量具有非零本征值)。对于,这将使相关矩阵在任一情况下均退化。否则,它的反证明它是非退化的。n 1 C1C(1/(n1),n)n1C(1,n)1n2Σ(ρ,n)


20

您的相关矩阵是

(1ρρρ1ρρρ1)

如果主要的主要未成年人都是非负数,则矩阵为正半定数。主要未成年人是矩阵“西北”区块的行列式,即1是行列式的行列式

(1ρρ1)

和相关矩阵本身的行列式

1显然是正数,第二个主要次要数是,对于任何可允许的相关性都是非负的。整个相关矩阵的行列式为1ρ2ρ[1,1]

2ρ33ρ2+1.

该图显示了在相关系数范围内函数的行列式。 [1,1]在此处输入图片说明

您会看到该函数在@stochazesthai给定的范围内是非负的(您也可以通过找到行列式方程的根来检查)。


我们不是在您的答案中假设吗?为什么可以 Var()=1
一位老人在海里。

1
@Anold您似乎正在阅读写有“ correlation”的“ covariance”。
ub

6

当且仅当相关矩阵为正半定值时,才存在成对相关的随机变量,和。仅对会发生这种情况。Ÿ ž ρXYZρ&Element;[- 1ρXY=ρYZ=ρXZ=ρρ[12,1]


2
您能用非常简单的方式解释一下吗?
伊丽莎白·苏珊·约瑟夫

1
我认为不存在不需要矩阵代数知识的解释。我建议您看一下Wikipedia页面(en.wikipedia.org/wiki/…)。
stochazesthai 2015年

4
我找到了只需要基本(高中水平)代数的解释,并将其包括在我的答案中。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.