用于集群验证的信息(VI)指标变化背后的直觉是什么?


11

对于像我这样的非统计学家来说,VI即使阅读了Marina Melia的相关论文“ Comparing clusters-an based based distance ”(多变量分析杂志,2007年),也很难把握度量(信息的变化)的概念。实际上,我不熟悉许多集群的术语。

以下是MWE,我想知道在使用的不同指标中输出的含义。我在R中具有这两个群集,并且具有相同的id顺序:

> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")

现在根据VI和其他指标/索引以及它们在文献中出现的时间顺序进行比较。

library(igraph)
  # Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi")) 
[1] 0.8673525
  # Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi")) 
[1] 0.2451685
  # Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence") 
[1] 0.8800522
  # van Dongen S metric 2000:
compare(a, b, method = c("split.join")) 
[1] 8
  # Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand")) 
[1] 0.8750403
  # Rand Index 1971:
compare(a, b, method = c("rand")) 
[1] 0.9374788

如您所见,该VI值与所有其他值都不相同。

  • 该值说明了什么(与下图有何关系)?
  • 考虑此值低或高的准则是什么?
  • 是否定义了任何准则?

尝试报告此类结果时,也许该领域的专家可以为像我这样的外行提供一些明智的描述。如果有人还提供其他指标的准则,我也将不胜感激(考虑值的大小时,即与两个集群之间的相似性有关)。

我在这里这里已经阅读了相关的CV线程,但是仍然无法理解背后的直觉VI。有人可以用简单的英语解释吗?

下图是来自上述论文的图2 VI

在此处输入图片说明


2
所有这些相似性和指标(请注意两种类型之间的差异)以某种方式或其他方式衡量与两个分区之间最大的公共子群集相关的碎片数量。它们都使用所谓的混淆矩阵。通过考虑VI的精确公式,可以理解为正在测量该碎片。我建议您看一下Meila出版物之一中的公式,并阅读所有这些距离的归一化版本,因为它们的比例尺都不同。这可能是最重要的一点。
micans

我也在努力解释VI,发现这篇文章非常有用!
披萨

Answers:


1

您需要意识到度量可能具有不同的解释。

从您的情节来看, VI是好的。

1 - 0.2451685 = 0.7548315

这与其他措施更加一致。

但是,请注意,这些措施大多数都具有不同的含义

没有理由认为仅仅因为一个量度是0.8,另一个量度也应该是0.8


我认为,如果您能解释一下他们每个人衡量的不同内容,则OP会很感激。
gung-恢复莫妮卡

我对它们的了解不够深,无法对它们中的每一个进行解释。显然,没有可比的规模/单位。就像伏特和英尺不可比。
已退出–Anony-Mousse 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.