比较聚类:兰德指数与信息变化


21

我想知道是否有人在信息变异兰德指数之间的差异背后有任何见识或直觉可用于比较聚类。

我已经阅读了Marina Melia撰写的论文“ Comparing Clusterings-A InformationBased Distance ”(多变量分析杂志,2007年),但是除了注意到定义的差异之外,我不了解信息的变化是什么。捕获rand索引不捕获的值。

Answers:


8

两种方法之间的区别很细微。最好的考虑方法是考虑由合并合并拆分操作定义的网格。可以通过定义函数f来重构这两个度量f在聚类上,然后通过以下公式定义两个聚类之间的距离:

其中 ç Ç '是连接在晶格两个聚类的。

d(C,C)=f(C)+f(C)2f(CC)
CC

现在让,让n i = |。C i | 。设置f C = n 2 i会产生兰德指数,设置f C = n i log n i会产生VI。C={C1,C2,,Ck}ni=|Ci|f(C)=ni2f(C)=nilogni


感谢Suresh!您是否知道这些公式中的差异是否(以及如何)解释了为什么兰德指数和信息变化会以不同的方式破坏一致性(一个集群中的一个集群是另一个集群的子集群)?(根据micans的回答)
Amelio Vazquez-Reina

2
正如micans所指出的那样,兰德指数具有二次行为,因此它对包含变化的敏感性比接近线性的熵函数更敏感。
Suresh Venkatasubramanian 2012年

抱歉,但是与聚类之间的其他类型差异相比,遏制对二次术语的影响更大。您介意对此进行详细说明吗?
Amelio Vazquez-Reina'3

@ user023472您好,user023472。我对您的发现感兴趣,您似乎是在不久前问这个问题的。您是否了解两种方法的真正区别是什么?谢谢。
Creatron

14

我认为,两者之间存在巨大差异。兰德指数很大程度上受其操作的群集的粒度的影响。接下来,我将使用Mirkin距离,它是Rand指数的一种调整形式(很容易看到,但例如参见Meila)。我还将使用分割/连接距离,这在Meila的一些论文中也提到过(免责声明:分割/连接距离是我提出的)。假设有一百个元素的宇宙。我将使用Top来表示包含所有元素的单个集群的聚类,使用Bottom来表示所有节点位于单独的单例集中的集群,使用Left来表示聚类{{1,2,.. 10},{11, 12..20},{21,22..30},...,{91,92,.. 100}}和权利来表示聚类{{1,11,.. 91},{2, 12,.. 92},{3,13,.. 93},...,{10,20,.. 100}}

在我看来,底部和顶部是一致的(嵌套)群集,而左侧和右侧是最大冲突的群集。这两个成对比较与上述指标的距离如下:

               Top-Bottom     Left-Right 

Mirkin            9900          1800
VI                4.605         4.605
Split/join        99            180

因此,Mirkin / Rand认为一致的顶部-底部对与最大冲突的左右对之间的距离要远得多。这是一个极端的例子来说明这一点,但是Mirkin / Rand通常受其操作的群集粒度的影响很大。这背后的原因是此度量标准和群集大小之间的二次关系,可以通过涉及节点计数的事实来解释。实际上,Mirkin距离是由聚类引起的完整图的并集的边集之间的汉明距离(这是我认为您的问题的答案)。

关于信息变化与拆分/合并之间的差异,第一个对某些冲突情况更为敏感,如Meila所示。也就是说,“拆分/合并”仅考虑每个群集的最佳匹配,而忽略了该群集其余部分可能发生的碎片,而“信息变化”将选择此碎片。也就是说,“拆分/合并”很容易解释为从另一个群集获得一个群集所需移动的节点数,从这个意义上讲,它的范围更容易理解;在实践中,碎片化问题也可能并不常见。

这些度量中的每一个可以形成为两个距离的总和,即两个聚类中的每个聚类到它们最大的公共子聚类的距离。我觉得与这些单独的部分一起工作通常有益,而不仅仅是它们的总和。上表将变为:

               Top-Bottom     Left-Right 

Mirkin          0,9900          900,900
VI              0,4.605       2.303,2.303
Split/join      0,99             90,90

顶部和底部之间的包含关系立即变得清晰。知道两个聚类是否一致(即一个聚类(几乎是另一个聚类))通常是非常有用的,因为这可以放松它们是否接近的问题。聚类可能与黄金标准相距甚远,但仍保持一致或接近一致。在这种情况下,可能没有理由考虑相对于该黄金标准的聚类不良。当然,琐碎的群集“顶部”和“底部”将与任何群集保持一致,因此必须将其考虑在内。

最后,我相信诸如Mirkin,信息变异和Split / Join之类的指标是比较聚类的自然工具。对于大多数应用程序,试图合并统计独立性并纠正偶然性的方法过于虚构和模糊不清。

第二个示例 考虑以下几对聚类: C1 = {{1,2,3,4,4,5,6,7,8},{9,10,11,12,13,13,14,15,16}}} = {{1,2,3,4,5,6,7,8,9,10},{11,12,13,13,14,15,16}}

C3 = {{1,2,3,4},{5,6,7,8,9,10},{11,12,13,14,15,15,16}}},{{1,2,3 ,4},{5、6、7、8、9、10、11、12},{13、14、15、16}}

在这里C2可以通过移动节点9、10和C3C1形成可以通过移动节点11和12 由C3形成。除了所涉及的簇的大小不同之外,这两个更改都是相同的(“移动两个节点”) 。这两个示例的聚类指标表是这样的:

            C1-C2         C3-C4

Mirkin       56            40 
VI            0.594         0.520
Split/Join    4             4

可以看出,Mirkin / Rand和信息的变化受集群大小的影响(并且Mirkin的影响更大;随着集群大小的不同,这种变化会更加明显),而Split / Join距离不受影响(其值为4因为它总是通过最大的公共子集群将节点从一个集群“移动”到另一个集群)。根据情况,这可能是理想的特性。拆分/连接(要移动的节点数)的简单解释及其群集大小的独立性值得关注。在Mirkin和信息变化之间,我认为后者是非常可取的。


感谢micans,这非常有见地。我不确定我是否了解第二张桌子。为什么表中的每个条目都有两个用逗号分隔的数字?另外,您知道此参数与@Suresh的关系如何吗?
Amelio Vazquez-Reina'3

1
如果A和B是聚类,则可以将d(A,B)分解为d(A,B)= d(A,X)+ d(B,X),其中X是最大聚类,是C的子聚类。都。用Suresh的符号表示,d(A,B)= f(A)+ f(B)-2f(X)。可以将其重写为f(A)+ f(X)-2f(X)+ f(B)+ f(X)-2f(X)= d(A,X)+ d(B,X)。上面我写了用逗号分隔的两个分量d(A,X)和d(B,X)。到目前为止,两者之间最大的区别是Mirkin / Rand的二次特征。如果查看“顶部/底部”和“左/右”示例,则“顶部-底部”距离很大;这完全是由于Top的大小。
micans'3
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.