对于像我这样的非统计学家来说,VI
即使阅读了Marina Melia的相关论文“ Comparing clusters-an based based distance ”(多变量分析杂志,2007年),也很难把握度量(信息的变化)的概念。实际上,我不熟悉许多集群的术语。
以下是MWE,我想知道在使用的不同指标中输出的含义。我在R中具有这两个群集,并且具有相同的id顺序:
> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
现在根据VI
和其他指标/索引以及它们在文献中出现的时间顺序进行比较。
library(igraph)
# Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi"))
[1] 0.8673525
# Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi"))
[1] 0.2451685
# Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence")
[1] 0.8800522
# van Dongen S metric 2000:
compare(a, b, method = c("split.join"))
[1] 8
# Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand"))
[1] 0.8750403
# Rand Index 1971:
compare(a, b, method = c("rand"))
[1] 0.9374788
如您所见,该VI
值与所有其他值都不相同。
- 该值说明了什么(与下图有何关系)?
- 考虑此值低或高的准则是什么?
- 是否定义了任何准则?
尝试报告此类结果时,也许该领域的专家可以为像我这样的外行提供一些明智的描述。如果有人还提供其他指标的准则,我也将不胜感激(考虑值的大小时,即与两个集群之间的相似性有关)。
我在这里和这里已经阅读了相关的CV线程,但是仍然无法理解背后的直觉VI
。有人可以用简单的英语解释吗?
下图是来自上述论文的图2 VI
。
2
所有这些相似性和指标(请注意两种类型之间的差异)以某种方式或其他方式衡量与两个分区之间最大的公共子群集相关的碎片数量。它们都使用所谓的混淆矩阵。通过考虑VI的精确公式,可以理解为正在测量该碎片。我建议您看一下Meila出版物之一中的公式,并阅读所有这些距离的归一化版本,因为它们的比例尺都不同。这可能是最重要的一点。
—
micans