从协方差矩阵衡量“方差”?


17

如果数据为1d,则方差表示数据点彼此不同的程度。如果数据是多维的,我们将获得协方差矩阵。

对于多维数据,通常有没有一种方法可以给出单个的数据点彼此之间如何不同的数量?

我认为可能已经有很多解决方案,但是我不确定搜索所用的正确术语。

也许我可以做一些事情,例如将协方差矩阵的特征值相加,这听起来明智吗?


2
协方差矩阵的行列式。我将很快发布一个更加充实的答案。
user603

5
跟踪经常使用。例如,在PCA中,由每个组件解释的方差分数是“总方差”的分数,其定义为协方差矩阵的迹线。@ user603期待您的答复。
变形虫说恢复莫妮卡

2
adding up the eigenvalues of the covariance matrix等于上面提到的微量变形虫。
ttnphns

该措施将/将用于什么?
HelloGoodbye

@HelloGoodbye嗨,我实际上有一些带有标签的[嘈杂]数据,并且我预先假设同一类别内的[true]数据点应该不会有很大差异。我正在寻找一种测量每个类别中数据点差异程度的方法,以便可以了解每个类别中数据的噪声程度。
dontloo

Answers:


16

(下面的答案仅介绍并陈述了在[0]中证明的定理。该论文的优点在于,大多数参数都是根据基本线性代数提出的。要回答这个问题,就足以陈述主要结果,但一定要检查原始来源)。

在可以用变量椭圆分布描述数据的多元模式的任何情况下,根据定义,统计推断将减少到拟合(和表征)k变量位置向量的问题(例如),并且数据的 x对称半正定矩阵(例如)。出于下面我解释的原因(但您已经假定为前提),将分解为形状分量(大小与相同的SPSD矩阵)通常会更有意义kkķ ķ Σ Σ Σ σ 小号θkkΣΣΣ),说明您的多元分布的密度轮廓的形状以及表示这些轮廓比例的标量。σS

在单变量数据(),数据的协方差矩阵是标量,并且如下文所述,的形状分量为1,因此等于其比例分量Σ Σ Σk=1ΣΣΣ总是和没有歧义是可能的。Σ=σS

在多元数据中,可以选择缩放函数。特别是一个()突出之处在于它具有关键的合意特性。在椭圆族的情况下,这应该使其成为比例因子的首选。σ 小号 = | ΣσSσS=|ΣΣ|1/k


MV统计中的许多问题都涉及散点矩阵的估计,该散点矩阵定义为的函数(al) 对称半正定,并且满足:R k × kΣRk×k

(0)Σ(AX+b)=AΣ(X)A
(用于非奇异矩阵和向量)。例如,协方差的经典估计可以满足(0),但绝不是唯一的估计。 Ab

在存在椭圆形分布数据的情况下,其中所有密度轮廓都是由相同形状矩阵定义的椭圆,直到与标量相乘,自然会考虑以下形式的规范化版本:Σ

VS=Σ/S(Σ)

其中是满足以下条件的1均质函数:S

(1)S(λΣ)=λS(Σ)

对于所有。然后,被称为散射矩阵(简称形状矩阵)的形状分量,被称为散射矩阵的比例分量。损失函数仅通过形状成分依赖于的多元估计问题的示例包括球形度,PCA和CCA等测试。λ>0VSσS=S1/2(Σ)ΣVS

当然,存在许多可能的缩放函数,因此这仍未解决标准化函数的几种选择在某种意义上最佳的问题(如果有的话)。例如:S

  • S=tr(Σ)/k(例如,@ amoeba在OP的问题下方的评论中提出的那个。另请参阅[1],[2],[3])
  • S=|Σ|1/k([4],[5],[6],[7],[8])
  • Σ11(协方差矩阵的第一项)
  • λ1(Σ)(的第一特征值)Σ

但是,是唯一的缩放函数,在局部渐近法线族中,用于缩放和形状的相应估计的Fisher信息矩阵的块对角线(即缩放)和估计问题的形状成分是渐近正交的[0]。这意味着,除其他事项外,标度函数是的唯一选择,对于非的规格,在对进行推断时不会造成任何效率损失。S=|Σ|1/kS=|Σ|1/kSσSVS

我不知道满足(1)的的许多可能选择都具有相当强的最优性。S

  • [0] Paindaveine,D。,形状的规范定义,《统计与概率论》,第78卷,第14期,2008年10月1日,第2240-2247页。未选通的链接
  • [1] Dumbgen,L.(1998)。泰勒(Tyler)的M-散度高维函数,安。研究所 统计员。数学。50,471–491。
  • [2] Ollila,E.,TP Hettmansperger和H. Oja(2004)。仿射等变多元符号方法。于韦斯屈莱大学预印本。
  • [3] Tyler,DE(1983)。散射矩阵的鲁棒性和效率属性,Biometrika 70,411–420。
  • [4] Dumbgen,L.和DE Tyler(2005)。关于某些多元M函数的故障属性,请扫描。J.统计学家。32,247–264。
  • [5] Hallin,M.和D. Paindaveine(2008)。基于最佳等级的散布均匀性测试,Ann。统计员出现。
  • [6] Salibian-Barrera,M.,S. Van Aelst和G. Willems(200 6)。基于具有快速且强大的自举的多元MM估计量的主成分分析,J。Amer。统计员。副会长 101,1198–1211。
  • [7] Taskinen,S.,C. Croux,A. Kankainen,E. Ollila和H. O ja(2006)。基于散度和形状矩阵的规范相关性和矢量估计的影响函数和效率,J。Multivariate Anal。97、359–384。
  • [8] Tatsuoka,KS和DE Tyler(2000)。关于非椭圆分布下S函数和M函数的唯一性,Ann。统计员。28,1219–1243。

1
另外,是缩放比例组件的一个奇怪选择,因为它不是旋转不变的……Σ11
阿米巴说,莫妮卡(Monica)

感谢您的认真回答!不过,我需要一些时间才能完全理解它:)
dontloo '16

@amoeba:施加到。我将 放在其余的答案中,因为没有混淆的可能。我同意这有点笨拙,因此现在使用。我同意你的第二点意见。同样,代币不变于重新缩放。从这个意义上讲,放置在上的同质性约束是一个非常低的标准。ΣXXXXΣ(XX)λ1(Σ)S
user603

等待; 为什么会希望或期望比例分量对于重新缩放不变?
变形虫说莫妮卡(Reonica Monica)

抱歉,我的意思是,如果您使用作为缩放函数,则生成的形状矩阵与重新缩放不相等。λ1(Σ)
user603

11

标量变量的方差定义为变量与其平均值的平方偏差:

Var(X)=E[(XE[X])2]

通过将偏差解释为欧几里得距离,可以得到矢量值随机变量的标量值方差的一种概括

Vars(X)=E[XE[X]22]

该表达式可以重写为

Vars(X)=E[(XE[X])(XE[X])]=E[i=1n(XiE[Xi])2]=i=1nE[(XiE[Xi])2]=i=1nVar(Xi)=i=1nCii

其中是协方差矩阵。最后,可以简化为C

Vars(X)=tr(C)

这是协方差矩阵的轨迹


4

尽管协方差矩阵tr(C)踪迹可以衡量总方差,但它并未考虑变量之间的相关性。

如果您需要整体变化的度量是大当你的变量是相互独立的,是非常小的,当变量是高度相关的,你可以用行列式的协方差矩阵,| C |

请参阅本文以获得更好的说明。


4

如果只需要一个数字,则建议使用协方差矩阵的最大特征值。这也是PCA中第一个主要成分的解释差异。它告诉您,如果将向量的维数减小为一,则可以解释多少总方差。请参阅数学SE上的此答案

想法是通过将所有变量线性地组合成一个序列,将向量折叠成一个维。您最终遇到一维问题。

可以用相对于总方差的百分比形式报告解释方差。在这种情况下,您将立即看到序列之间是否存在很多线性相关性。在某些应用中,该数字可以是80%或更高,例如金融中的利率曲线建模。这意味着您可以构建变量的线性组合,以解释所有变量的方差80。


3

信息理论中的熵概念似乎适合于此目的,作为信息内容不可预测性的一种度量,它由

H(X)=p(x)logp(x)dx.

根据维基百科,如果我们假设的多元高斯分布具有均值和协方差,则根据Wikipedia,微分熵为 ,其中是维数。由于多元高斯分布是针对给定协方差最大化微分熵的分布,因此该公式给出了具有给定方差的未知分布的熵上限。p(x)μΣ

H(X)=12log((2πe)ndet(Σ))
n

正如@ user603所建议的,它取决于协方差矩阵的行列式。


这个答案似乎与问题的精神不同。协方差和方差是任何分布的属性(尽管在某些情况下它们可能是无限的或未定义的),而此答案集中在多元正态分布的极其特殊的情况下。因此,它不适用于问题中隐含的大多数情况。您能否详细说明在某种情况下,您的答案可以解释为在数据不一定是“正常”的一般情况下提供了一些有用的指导?
ub

@whuber感谢您的建议,我想也许我应该将高斯重写为“在给定方差的情况下最大化熵的分布”?那么结果将成为某个上限。你怎么看?
dontloo

这听起来像是有用的地方,而且更笼统。
ub

1
我想有很多方法可以给猫皮;)。实际上,我的意思是您的答案与我的答案之间的联系非常牢固。我有个小问题。我认为行列式对于您尝试解决的问题具有某些最优性(而不必只是出于熟悉程度而选择),并且我认为这些最优性超出了协方差矩阵(它们决定了您遇到的任何散射函数的行列式)选择并且有很多),并超出了高斯分布(扩展到整个椭圆族)。
user603
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.