构成协方差矩阵的变量之间的距离是多少?


11

我有一个协方差矩阵,并希望使用分层聚类将变量划分为个聚类(例如,对协方差矩阵进行排序)。ñ×ñķ

变量之间(即平方协方差矩阵的列/行之间)是否存在典型的距离函数?

或者,如果还有更多内容,是否对该主题有很好的参考?


您为什么要对变量使用分层聚类?通常,我们会想到一个数据矩阵,其中w /列为变量,而观察值为行。如果要查找潜在分组,则可以尝试例如对 /观察值进行分层聚类,或者对 /变量进行因子分析X
gung-恢复莫妮卡

@Piotr,是的,协方差(或相关或余弦)可以很容易地自然转换为欧几里得距离,因为它是一个标量积(=角型相似度)。自动两个变量以及它们的方差之间的协方差知道意味着知道d变量之间:。d2=σ1个2+σ22-2CØv
ttnphns

注意,此公式表示负协方差的距离大于正协方差的距离(从几何角度来看,确实是这种情况)。如果您不希望协方差的符号起作用,请取消负符号。
ttnphns

@gung这是一个对称矩阵,所以行〜列。对我而言,至关重要的是将其划分为变量集,而不是通过因子分析来“旋转”变量(实际上,我不是在使用标准的转换矩阵,而是复杂的(量子力学中的密度矩阵))。
Piotr Migdal

@ttnphns谢谢。困扰我的是,我想分离不相关的变量-负相关对我来说(几乎)与正相关一样好。
Piotr Migdal

Answers:


13

协方差(或相关或余弦)可以通过余弦定律轻松自然地转换为欧几里得距离,因为它是欧几里德空间中的标量积(=基于角度的相似性)。知道两个变量ij之间的协方差及其方差会自动意味着知道变量之间的d:。(与通常的平方欧几里得距离成正比d一世Ĵ2=σ一世2+σĴ2-2CØv一世Ĵd一世Ĵ2:如果您使用平方和和叉积和代替方差和协方差,则会获得后者。当然,这两个变量最初都应该以中心为中心:谈到“协方差”是考虑使用去除均值的数据的别名。)

注意,该公式意味着负协方差的距离大于正协方差的距离(从几何角度来看确实如此,即,当变量被视为对象空间中的矢量时)。如果您不希望协方差的符号起作用,请取消负符号。忽略负号不是“手工修补”操作,在需要时可以保证:如果cov矩阵是正定的,则abs(cov)矩阵也将是正定的;因此,通过上式获得的距离将是真正的欧几里德距离(欧几里德距离是一种特定的度量距离)。

欧几里德距离是在相对于通用的层次聚类:例如聚类的任何方法与任一或欧氏平方欧氏有效d。但是某些方法,例如平均链接或完全链接,可以与任何不相似或相似(不只是度量距离)一起使用。因此,您可以将这些方法直接用于covabs(cov)矩阵,或者-例如,与max(abs(cov))-abs(cov)距离矩阵一起使用。当然,聚类结果确实可能取决于所使用的(不相似)相似性的确切性质。


您如何定义?我发现如果两个变量的均值相同,则等于两个随机变量之间的平方距离的期望值,但如果均值不同(则将更小),则该值等于期望值。d一世Ĵ2d一世Ĵ2
HelloGoodbye 16-10-13

@HelloGoodbye,是的,我暗示两个变量(向量)的均值相等-实际上,在第一个实例中均去除了均值。
ttnphns

3

为什么不使用相关矩阵进行聚类呢?假设您的随机变量居中,则通过计算变量之间的相关性,可以计算出余弦相似度距离。您的链接中也提到了该距离。该距离可用于层次聚类。1-|余弦相似度|越小,变量越相似。


d一世Ĵ=1个-一种一世Ĵ2/一种一世一世一种ĴĴ

3
啊,对不起你的误会。我知道的最好的信息就是这个。他们研究了带有层次聚类的几个指标(使用相关性)的质量。对于分层集群,我通常尝试许多指标,然后查看哪种指标最适合我的特定目标和数据。
Jorge Banuelos

链接似乎不再起作用了?
Matifou
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.