相关矩阵特征值为零的充要条件


11

给定随机变量,其概率分布为,相关矩阵为正半定值,即其特征值是正数还是零。nXiP(X1,,Xn)Cij=E[XiXj]E[Xi]E[Xj]

我对上具有 零特征值所必需和/或足够的条件感兴趣。例如,一个充分的条件是随机变量不是独立的:对于某些实数。例如,如果,则为特征值为零的的特征向量。如果我们对此类型的具有独立的线性约束,则意味着零特征值。PCmiuiXi=0uiP(X1,,Xn)=δ(X1X2)p(X2,,Xn)u=(1,1,0,,0)CmXim

当对于某个(即)时,至少存在另外一种(但琐碎的)可能性,因为情况有一列和零行:。因为这并不是很有趣,所以我假设概率分布不是那种形式。P X 1... X Ñα δ X - ë [ X ] ç Ĵ Ç 一个 = C ^ 一个 = 0 Xa=E[Xa]aP(X1,,Xn)δ(XaE[Xa])CijCia=Cai=0,i

我的问题是:线性约束是诱导零特征值的唯一方法(如果我们禁止上面给出的琐碎例外),还是对随机变量的非线性约束也可以生成零特征值?C


1
根据定义,包含零向量的向量集合是线性相关的,因此您的其他可能性不是什么新鲜事物或不同之处。你能解释一下你所说的“有什么意思特征值”?这看起来像是一种印刷错误。m
ub

@whuber:是的,错字了。已更正。我认为这两个条件是不同的:一个是关于变量之间的关系,而另一个是关于唯一变量的概率(即)。p(Xa)=δ(XaE(Xa))
亚当

您问题的表述令人困惑。它看起来像线性代数的一个基本定理,但是对“独立”随机变量的引用表明它可能完全是其他的东西。理解每次使用“独立”是指线性独立而不是(统计上)独立随机变量,这是正确的吗?您对“缺少数据”的引用甚至进一步令人困惑,因为这表明您的“随机变量”可能实际上仅意味着数据矩阵的列。最好弄清楚这些含义。
ub

@whuber:我已经编辑了问题。希望它更清晰。
亚当

独立性的条件不一定需要为零(任何常数都可以),除非每个的平均值为零。X iiuiXi=0Xi
Sextus Empiricus

Answers:


6

也许通过简化表示法,我们可以提出基本思想。 事实证明,我们不需要涉及期望或复杂的公式,因为所有内容都是纯代数的。


数学对象的代数性质

问题涉及(1)随机变量的有限集的协方差矩阵与(2)这些变量之间的线性关系(被视为向量)之间的关系。X1,,Xn

所讨论的向量空间是所有有限方差随机变量(在任何给定的概率空间)的集合,以几乎肯定恒定的变量的子空间为模,表示为 (也就是说,当与期望值不同的可能性为零时,我们将两个随机变量和视为相同的向量。)我们仅处理有限维向量生成的空间这就是使它成为代数问题而不是解析问题的原因。大号 2Ω P/ [R X Y X Y V X i(Ω,P)L2(Ω,P)/R.XYXYVXi,

我们需要了解的方差

V不仅仅是一个向量空间:它是一个二次模块,因为它配备了方差。 我们需要了解的关于方差的两件事:

  1. 方差是一个标量值函数,对于所有向量,其属性Q a X = a 2 Q X X QQ(aX)=a2Q(X)X.

  2. 方差是非简并的。

第二个需要一些解释。 确定一个“点积”,它是由给出的对称双线性形式Q

XY=14(Q(X+Y)Q(XY)).

(这是当然无非变量的协方差其他和)载体和是正交时,他们的点积为 的正交补任何一组的矢量的包含的所有矢量正交写入每个元素ÿ X ÿ 0 V XY.XY0.AVA,

A0={vVa.v=0 for all vV}.

显然,它是一个向量空间。当,不退化。QV0={0}Q

让我证明方差确实是不退化的,即使它看起来似乎很明显。假设是一个非零元素 这意味着对于所有等效地,V 0X ÿ = 0 ý V ;XV0.XY=0YV;

Q(X+Y)=Q(XY)

对于所有向量 取得出Y = XY.Y=X

4Q(X)=Q(2X)=Q(X+X)=Q(XX)=Q(0)=0

因此 但是,我们知道(也许使用切比雪夫不等式),唯一具有零方差的随机变量几乎可以肯定是恒定的,从而用 QED中的零向量来标识它们V Q(X)=0.V,

解释问题

回到问题,在前面的符号中,随机变量的协方差矩阵只是其所有点积的规则数组,

T=(XiXj).

有一个很好的思考:通过发送任何向量,它以通常的方式在上定义线性变换。进入向量其分量由矩阵乘法规则给出ř Ñ X = X 1... X Ñ[R Ñ Ť X = Ý = Ý 1... X ÑTRnx=(x1,,xn)RnT(x)=y=(y1,,xn)ith

yi=j=1n(XiXj)xj.

此线性变换的核心是它发送为零的子空间:

Ker(T)={xRnT(x)=0}.

前述等式意味着,当对于每个xKer(T),i

0=yi=j=1n(XiXj)xj=Xi(jxjXj).

由于对于每个都是如此因此它适用于跨越的所有向量:即本身。因此,当由给出的向量位于 因为方差是非退化的,这意味着 也就是说,描述了原始随机变量之间的线性相关性。X V X ker的Ť Σ Ĵ X Ĵ X Ĵ V 0Σ Ĵ X Ĵ X Ĵ = 0 X Ñi,XiVxKer(T),jxjXjV0.jxjXj=0.xn

您可以随时检查此推理链是否可逆:

作为向量之间的线性相关性与的内核元素一一对应牛逼Xj T.

(请记住,该语句仍然将定义为位置不断变化的位置,也就是说,作为元素,而不是只是随机变量。)L 2Ω P/ RXjL2(Ω,P)/R

最后,根据定义,一个特征值的是任何标量存在用于其非零矢量与 当是一个特征值时,关联的特征向量的空间(显然)是的核λ X Ť X = λ X λ = 0 Ť TλxT(x)=λx.λ=0T.


摘要

我们已经得出以下问题的答案:随机变量的线性相关性集合 qua元素与…一对一对应他们的协方差矩阵的内核 这是因为方差是一个非简并二次形式。内核也是与零特征值关联的特征空间(或者在没有零特征值时仅为零子空间)。TL2(Ω,P)/R,T.


参考

我在很大程度上采用了第四章的符号和某些语言。

Jean-Pierre Serre,算术课程。 施普林格出版社1973。


哇,太好了!只是一个确保我了解所有内容的问题:当您编写“ 作为向量”时,并不是要在向量中收集随机变量(即),还是吗?如果我是对的,我猜您正在将随机变量的可能值收集到向量中,而概率分布则隐藏在方差的定义中,对吗?X = X 1X nX iXjX=(X1,,Xn)Xi
亚当

我认为尚不清楚的主要方面如下(这可能只是表明我缺乏概率论的形式知识):您似乎表明,如果特征值为0,则我们有。此约束不涉及隐藏在的概率分布(我认为这是此演示的聪明之处)。但是,不参考就有意味着什么?还是只是暗示,但是我们怎么知道它必须是delta函数线性组合 P Q X 1 = X 2 P P α δ X 1 - X 2X 1 X 2X1=X2PQX1=X2PPδ(X1X2)X1X2
亚当

恐怕我不理解您在这种情况下对“三角函数”的使用,亚当。这部分是因为我认为不需要它,部分是因为该符号不明确:例如,这是Kronecker三角洲还是Dirac三角洲?
ub

根据变量(离散或连续),它可以是Kronecker或Dirac。这些增量可能是积分度量的一部分,例如,我对2×2矩阵积分(因此,四个实变量,,和具有一定的权重(例如),或我整合在一个子组,如果是对称矩阵(意味着例如),I可以在形式上强加乘以由。这将是一个线性约束Martijn Weterings的回答下面的评论中给出了非线性约束的一个例子MX1X2X3X4P=exp(tr(M.MT))X2=X3Pδ(X1X2)
亚当

(续)问题是:我可以在变量上添加哪些非线性约束条件,才能得出0特征值。根据您的答案,似乎是:仅非线性约束意味着线性约束(如Martijn Weterings的答复下方的注释所示)。也许问题在于我对问题的看法是从物理学家的角度出发的,所以我很难用另一种语言来解释它(我认为这里是问这个问题的正确位置,不是Physical.SE)。
亚当

5

线性无关不仅是足够的,但是一个neccesary条件

为了表明当且仅当变量不是线性独立的时方差-协方差矩阵具有等于零的特征值,才有待证明“如果矩阵的特征值等于零则变量不是线性独立的”。

如果特征值为零则存在某种线性组合(由特征向量定义)Cij=Cov(Xi,Xj)v

Y=i=1nvi(Xi)

这样

Cov(Y,Y)=i=1nj=1nvivjCov(Xi,Xj)=i=1nvij=1nvjCij=i=1nvi0=0

这意味着必须是一个常数,因此变量必须加起来等于一个常数,或者本身就是常数(平凡的情况),或者不是线性独立的。YXi

-带有的方程式的第一行是由于协方差Cov(Y,Y)

Cov(aU+bV,cW+dX)=acCov(U,W)+bcCov(V,W)+adCov(U,X)+bdCov(V,X)

-从第二行到第三行的步骤归因于零特征值

j=1nvjCij=0


非线性约束

因此,由于线性约束是必要条件(不仅足够),因此非线性约束仅在间接暗示(必要)线性约束时才有意义。

实际上,与零特征值相关的特征向量与线性约束之间存在直接对应关系。

Cv=0Y=i=1nviXi=const

因此,导致零特征值的非线性约束必须一起组合才能生成一些线性约束。


非线性约束如何导致线性约束

您在注释中的示例可以直观地显示出非线性约束如何通过反转推导来导致线性约束。以下非线性约束

a2+b2=1c2+d2=1ac+bd=0adbc=1

可以减少到

a2+b2=1c2+d2=1ad=0b+c=0

您可以反过来。假设您有非线性约束和线性约束,那么想像一下如何通过将线性约束填充到非线性约束中来用非线性约束替换线性约束就不足为奇了。例如,当我们以的非线性形式替换和,则可以使另一个关系。当您将和相乘时,您会得到。a=db=ca2+b2=1adbc=1a=dc=bac=bd


我猜想这(和胡夫的答案)是对我的问题的间接答案(这是:“线性相关性是获得零特征值的唯一方法”)是这样的:即使随机变量之间的相关性不是线性,只要写,就可以始终将其重写为线性相关性。尽管我确实在寻找方法来描述可能的非线性约束本身,但是我认为这仍然是一个有用的结果。Y=iνiXi
亚当

是的,我知道...我的意思是,如果存在非线性依赖性并且特征值为零,那么根据您的回答,这意味着可以以某种方式“分解”非线性依赖性线性相关。这是我想要的功能的较弱版本,但还是有一些。
亚当

您的一个给出的例子是行不通的,并不意味着就不可能了……
亚当

这是您所说的话的反例(如果您认为不是,那么这可能有助于我们发现问题的表达方式有问题:)):用2×2随机矩阵,用非线性约束和。这3个非线性约束可以用2个线性约束和1个线性约束来重写:表示协方差矩阵具有两个0特征向量。删除约束,它们消失。MM.MT=1detM=1detM=1
亚当

M11=X1,,和 。约束为,, (只有两个是独立的)。它们并不意味着特征值为零。但是,添加确实意味着两个特征值 0的特征向量。M12=X2M21=X3M22=X4X12+X22=1X32+X42=1X1X3+X2X4=0X1X4X2X3=1
亚当

2

假设的特征向量对应的特征值为,则。因此,根据切比雪夫不等式,几乎可以确定为常数,并且等于。即,每个零特征值对应于线性限制,即。无需考虑任何特殊情况。v 0 var v T X = v T C v = 0 v T X v T E [ X ] v T X = v T E [ X ]Cv0var(vTX)=vTCv=0vTXvTE[X]vTX=vTE[X]

因此,我们得出以下结论:

“线性约束是诱导零特征值[?]的唯一方法”

是。

“对随机变量的非线性约束是否也可以生成C的零特征值?”

是的,如果它们暗示线性约束。


我同意。我希望可以对非线性约束的类型进行更具体的说明,但是我想如果不指定约束,则很难做得更好。
亚当

2

协方差marix的是对称的,因此可以diagnonalize它作为,用对角矩阵的特征值将其重写为,rhs是的协方差矩阵,因此lhs上的零特征值对应于具有退化分布的线性组合。X Ç = Q Λ Q Ť Λ Λ = Q T C Q Q T X XCXC=QΛQTΛ.Λ=QTCQQTXX


这是一个非常简洁的描述,但是如何使更加直观?QTCQ=cov(QTX)
Sextus Empiricus
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.