非正定协方差矩阵对我的数据有什么影响?


21

我有许多多变量观测值,并希望评估所有变量的概率密度。假定数据是正态分布的。在低数量的变量下,一切都会按我预期的那样工作,但移至更大的数量会导致协方差矩阵变为非正定。

我已将Matlab中的问题减少为:

load raw_data.mat; % matrix number-of-values x number of variables
Sigma = cov(data);
[R,err] = cholcov(Sigma, 0); % Test for pos-def done in mvnpdf.

如果err> 0,则Sigma不是正定的。

为了评估更高维度的实验数据,我可以做些什么?它可以告诉我有关数据的任何有用信息吗?

我在这方面是个初学者,所以如果我错过了一些明显的事情,我深表歉意。


听起来您的数据对于高维表示来说太稀疏了。您是否打算使用此数据运行回归模型?
乔纳森·

Answers:


30

协方差矩阵不是正定的,因为它是奇异的。这意味着您的变量中的至少一个可以表示为其他变量的线性组合。您不需要所有变量,因为可以从其他变量的子集中确定至少一个变量的值。我建议按顺序添加变量,并在每一步检查协方差矩阵。如果新变量创建了一个奇异点,则将其删除,然后继续下一个。最终,您应该有一个带有正定协方差矩阵的变量子集。


19
+1。还值得注意的是,所有协方差矩阵都是正定矩阵,所有正定矩阵都是某些多元分布的协方差矩阵。因此,说“非正定协方差矩阵”有点矛盾。OP似乎实际上只是在说样本协方差矩阵是奇异的,这可能是由于完全共线性(如您所说)或观察数小于变量数而发生的
2012年

3
可以引入某些统计软件来自动纠正此问题。例如,regress当某些变量处于共线状态时,Stata的命令将自动删除多余的变量(其输出可以以识别这些变量并标记非共线子集的形式保存,以备将来使用)。不过,可能的复杂之处在于,这些变量不一定是共线的,但它们可能足够接近,以至于Cholesky分解中浮点误差的传播会产生负的特征值估计值,从而使变量在所有实际用途中共线。
ub

1
@whuber,也有类似的功能R-如果存在精确的共线性,则回归模型会自动从线性预测变量中删除变量。
2012年

2
@whuber,它有点笨拙,但是您可以做类似的技巧。如果g是线性模型,colnames(model.matrix(g))[-which(is.na(coef(g))==TRUE)][-1]则应返回输入到模型中的预测变量的名称,这些名称并非完全共线。通过检查哪些系数是有效的NA(这就是R指示变量被删除的方式),并找到模型矩阵的相应列名称(删除拦截列)来工作。顺便说一句,如果没有共线术语,那将不起作用,因此需要一个if语句来检查是否which(is.na(coef(g))==TRUE)为空:)
Macro

8
@Macro所有协方差矩阵都是正半定数。当它们是奇数时,它们不是正定的,因为对于矩阵A的所有向量x,x'Ax> 0都是正定的。在奇异情况下,对于某些x,x'Ax = 0发生。
Michael R. Chernick 2012年

0

这是有效的结果。协方差矩阵的该分量的估计为零,这很可能是正确的!它可能会导致计算困难,但是R中的某些算法(我不了解Matlab)可以解决这个问题。我不明白为什么人们对此感到不满并坚持采用更简约的模型。


-1

我上面没有解决的一点是,即使变量不是完全线性相关的,也可以根据经验数据计算一个非正定协方差矩阵。如果您没有足够的数据(特别是如果您试图从一堆成对的比较中构建高维协方差矩阵),或者您的数据没有遵循多元正态分布,那么您可能会得出悖论关系在变量之间,例如cov(A,B)> 0; cov(A,C)> 0; cov(B,C)<0。

在这种情况下,由于没有满足这些条件的多元正态分布-cov(A,B)> 0和cov(A,C)> 0必然表示cov(B,C),因此无法拟合多元正态PDF )> 0。

这就是说,一个非正定矩阵并不总是意味着您包括共线变量。这也可能表明您正在尝试为给定所选参数结构的关系建模。


1
您的答案在很多层面上都是错误的。无论如何,请考虑一个对角矩阵,对角线上的对角线为1,对于cov(第一和第二分量)为1/2,对于cov(第一和第三分量)为1/2,对于cov(第二和第三分量)为-1/2。 。协方差矩阵的特征值约为0.15、1.35、1.50,这为第二段中的断言提供了反例。
马克·L·斯通

@ MarkL.Stone,关于第二段,您是对的,但我想知道其中是否有些模棱两可,并且可以在大量解释下保存下来。例如,我想知道在第1款中,“没有足够的数据...试图通过一堆成对的比较来构建高维协方差矩阵”是指缺少大量数据并使用成对的完整观测值计算协方差矩阵中的每个元素。
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.