每个协方差矩阵都是正定的吗?


48

我想答案应该是,但我仍然觉得有些不对。文献中应该有一些一般性的结果,有人可以帮助我吗?


2
每个协方差矩阵都是正半定的。这意味着每个协方差矩阵都必须具有非负特征值。如果特征值都不为零,则协方差矩阵还为正定。
卡卡2015年


4
@Jingjings:我在您的个人资料中看到您从未投票或接受过任何答案;鉴于您有很多好的问题和很多好的答案,这是非常了不起的。我想您并不真正了解它是如何工作的。这样做的想法是,您应该对您认为有用的任何答案进行投票,并接受认为可以解决问题的任何答案。看来您可以赞成很多答案,也可以接受其中一些。
变形虫说莫妮卡(Monica)恢复

Answers:


47

没有。

考虑三个变量ÿž = X + Y ^。其协方差矩阵,中号,是不是正定的,因为有一个矢量Ž= 1 1 - 1 '),用于其Ž '中号ž不为正。XYZ=X+YMz=(1,1,1)zMz

总体协方差矩阵是正半确定的。

(请参见此处的属性2。)

通常也应将其应用于完整样本的协方差矩阵(无缺失值),因为它们也可以视为离散总体协方差的一种形式。

但是,由于浮点数值计算的不精确性,即使有时用代数形式的正定情况,有时也可能计算得甚至不是正半定数。好的算法选择可以帮助解决这个问题。

更一般地,样本协方差矩阵(取决于它们如何处理某些变量中的缺失值)甚至在理论上也可能是正半定,也可能不是。例如,如果使用成对删除,则不能保证正半定性。此外,累积的数值误差可能导致样本协方差矩阵在概念上应为正半定数而失败。

像这样:

 x <- rnorm(30)
 y <- rnorm(30) - x/10 # it doesn't matter for this if x and y are correlated or not
 z <- x+y
 M <- cov(data.frame(x=x,y=y,z=z))
 z <- rbind(1,1,-1)
 t(z)%*%M%*%z
              [,1]
[1,] -1.110223e-16

这是在我尝试的第一个示例中发生的(我可能应该提供一个种子,但是这种情况并不少见,在您获得一个示例之前,您必须先尝试许多示例)。

即使结果代数为零,结果还是负数。一组不同的数字可能会产生一个正数或一个“精确”零。

-

中等缺失导致通过成对删除导致正半确定性丢失的示例:

z <- x + y + rnorm(30)/50  # same x and y as before.
xyz1 <- data.frame(x=x,y=y,z=z) # high correlation but definitely of full rank 

xyz1$x[sample(1:30,5)] <- NA   # make 5 x's missing  

xyz1$y[sample(1:30,5)] <- NA   # make 5 y's missing  

xyz1$z[sample(1:30,5)] <- NA   # make 5 z's missing  

cov(xyz1,use="pairwise")     # the individual pairwise covars are fine ...

           x          y        z
x  1.2107760 -0.2552947 1.255868
y -0.2552947  1.2728156 1.037446
z  1.2558683  1.0374456 2.367978

 chol(cov(xyz1,use="pairwise"))  # ... but leave the matrix not positive semi-definite

Error in chol.default(cov(xyz1, use = "pairwise")) : 
  the leading minor of order 3 is not positive definite

 chol(cov(xyz1,use="complete")) # but deleting even more rows leaves it PSD

          x          y          z
x 0.8760209 -0.2253484 0.64303448
y 0.0000000  1.1088741 1.11270078
z 0.0000000  0.0000000 0.01345364

1
+1:但主要是为您的措词提供一个注释:在您介绍它时,看起来在一般情况下不能保证PSD-ness。如sjm.majewski的回答所示,您需要一个“病理性”案例(等级不完全),最终会遇到该问题。(我完全同意数字注释)您能否详细说明一些缺失值问题,即使考虑到数字错误,您甚至不能保证PSD?(我假设你不关心的测量稀疏等说,当)
usεr11852说恢复单胞菌

2
当然,仅当它不是完全排名(或非常接近)时才会发生。查看PSD的定义(以及@ sjm.majewski提到的与方差的关系),这很清楚。但是将其定义为病理性似乎很奇怪,因为这些非全等级情况在实践中一直在发生。这不是简单的方法,它每天都会影响真实的数据集,因此,这里经常产生问题。我将在上面谈论缺失和成对删除,因为这里没有空间。
Glen_b

2
n<pn<p

27

i,j=1nyiyjCov(Xi,Xj)=Var(i=1nyiXi)0
yiXi

y1=1,y2=1,y3=1X1=X,X2=Y,X3=Z=X+Yi=13yiXi=00


真好!Upvote;)
一位老人在海中。

这应该是公认的答案。这个问题只问“协方差矩阵”,它通常是指随机变量而不是样本的总体协方差矩阵。
user3303

请问您在回答中使用的公式是什么?
Aqqqq

如果您说的是具有方差和协方差的公式,则可以从公式中求和(即和的平方等于所有对的乘积之和)。
sjm.majewski
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.