如果数据为1d,则方差表示数据点彼此不同的程度。如果数据是多维的,我们将获得协方差矩阵。
对于多维数据,通常有没有一种方法可以给出单个的数据点彼此之间如何不同的数量?
我认为可能已经有很多解决方案,但是我不确定搜索所用的正确术语。
也许我可以做一些事情,例如将协方差矩阵的特征值相加,这听起来明智吗?
adding up the eigenvalues of the covariance matrix
等于上面提到的微量变形虫。
如果数据为1d,则方差表示数据点彼此不同的程度。如果数据是多维的,我们将获得协方差矩阵。
对于多维数据,通常有没有一种方法可以给出单个的数据点彼此之间如何不同的数量?
我认为可能已经有很多解决方案,但是我不确定搜索所用的正确术语。
也许我可以做一些事情,例如将协方差矩阵的特征值相加,这听起来明智吗?
adding up the eigenvalues of the covariance matrix
等于上面提到的微量变形虫。
Answers:
(下面的答案仅介绍并陈述了在[0]中证明的定理。该论文的优点在于,大多数参数都是根据基本线性代数提出的。要回答这个问题,就足以陈述主要结果,但一定要检查原始来源)。
在可以用变量椭圆分布描述数据的多元模式的任何情况下,根据定义,统计推断将减少到拟合(和表征)k变量位置向量的问题(例如),并且数据的 x对称半正定矩阵(例如)。出于下面我解释的原因(但您已经假定为前提),将分解为形状分量(大小与相同的SPSD矩阵)通常会更有意义ķ ķ Σ Σ Σ σ 小号),说明您的多元分布的密度轮廓的形状以及表示这些轮廓比例的标量。
在单变量数据(),数据的协方差矩阵是标量,并且如下文所述,的形状分量为1,因此等于其比例分量Σ Σ Σ总是和没有歧义是可能的。
在多元数据中,可以选择缩放函数。特别是一个()突出之处在于它具有关键的合意特性。在椭圆族的情况下,这应该使其成为比例因子的首选。σ 小号 = | Σ
MV统计中的许多问题都涉及散点矩阵的估计,该散点矩阵定义为的函数(al) 对称半正定,并且满足:R k × k
在存在椭圆形分布数据的情况下,其中所有密度轮廓都是由相同形状矩阵定义的椭圆,直到与标量相乘,自然会考虑以下形式的规范化版本:
其中是满足以下条件的1均质函数:
对于所有。然后,被称为散射矩阵(简称形状矩阵)的形状分量,被称为散射矩阵的比例分量。损失函数仅通过形状成分依赖于的多元估计问题的示例包括球形度,PCA和CCA等测试。
当然,存在许多可能的缩放函数,因此这仍未解决标准化函数的几种选择在某种意义上最佳的问题(如果有的话)。例如:
但是,是唯一的缩放函数,在局部渐近法线族中,用于缩放和形状的相应估计的Fisher信息矩阵的块对角线(即缩放)和估计问题的形状成分是渐近正交的[0]。这意味着,除其他事项外,标度函数是的唯一选择,对于非的规格,在对进行推断时不会造成任何效率损失。
我不知道满足(1)的的许多可能选择都具有相当强的最优性。
信息理论中的熵概念似乎适合于此目的,作为信息内容不可预测性的一种度量,它由
根据维基百科,如果我们假设的多元高斯分布具有均值和协方差,则根据Wikipedia,微分熵为 ,其中是维数。由于多元高斯分布是针对给定协方差最大化微分熵的分布,因此该公式给出了具有给定方差的未知分布的熵上限。
正如@ user603所建议的,它取决于协方差矩阵的行列式。