我想知道是否有人在信息变异和兰德指数之间的差异背后有任何见识或直觉可用于比较聚类。
我已经阅读了Marina Melia撰写的论文“ Comparing Clusterings-A InformationBased Distance ”(多变量分析杂志,2007年),但是除了注意到定义的差异之外,我不了解信息的变化是什么。捕获rand索引不捕获的值。
我想知道是否有人在信息变异和兰德指数之间的差异背后有任何见识或直觉可用于比较聚类。
我已经阅读了Marina Melia撰写的论文“ Comparing Clusterings-A InformationBased Distance ”(多变量分析杂志,2007年),但是除了注意到定义的差异之外,我不了解信息的变化是什么。捕获rand索引不捕获的值。
Answers:
两种方法之间的区别很细微。最好的考虑方法是考虑由合并合并拆分操作定义的网格。可以通过定义函数f来重构这两个度量在聚类上,然后通过以下公式定义两个聚类之间的距离:
其中 ç ∧ Ç '是连接在晶格两个聚类的。
现在让,让n i = |。C i | 。设置f (C )= ∑ n 2 i会产生兰德指数,设置f (C )= ∑ n i log n i会产生VI。
我认为,两者之间存在巨大差异。兰德指数很大程度上受其操作的群集的粒度的影响。接下来,我将使用Mirkin距离,它是Rand指数的一种调整形式(很容易看到,但例如参见Meila)。我还将使用分割/连接距离,这在Meila的一些论文中也提到过(免责声明:分割/连接距离是我提出的)。假设有一百个元素的宇宙。我将使用Top来表示包含所有元素的单个集群的聚类,使用Bottom来表示所有节点位于单独的单例集中的集群,使用Left来表示聚类{{1,2,.. 10},{11, 12..20},{21,22..30},...,{91,92,.. 100}}和权利来表示聚类{{1,11,.. 91},{2, 12,.. 92},{3,13,.. 93},...,{10,20,.. 100}}。
在我看来,底部和顶部是一致的(嵌套)群集,而左侧和右侧是最大冲突的群集。这两个成对比较与上述指标的距离如下:
Top-Bottom Left-Right
Mirkin 9900 1800
VI 4.605 4.605
Split/join 99 180
因此,Mirkin / Rand认为一致的顶部-底部对与最大冲突的左右对之间的距离要远得多。这是一个极端的例子来说明这一点,但是Mirkin / Rand通常受其操作的群集粒度的影响很大。这背后的原因是此度量标准和群集大小之间的二次关系,可以通过涉及节点对计数的事实来解释。实际上,Mirkin距离是由聚类引起的完整图的并集的边集之间的汉明距离(这是我认为您的问题的答案)。
关于信息变化与拆分/合并之间的差异,第一个对某些冲突情况更为敏感,如Meila所示。也就是说,“拆分/合并”仅考虑每个群集的最佳匹配,而忽略了该群集其余部分可能发生的碎片,而“信息变化”将选择此碎片。也就是说,“拆分/合并”很容易解释为从另一个群集获得一个群集所需移动的节点数,从这个意义上讲,它的范围更容易理解;在实践中,碎片化问题也可能并不常见。
这些度量中的每一个可以形成为两个距离的总和,即两个聚类中的每个聚类到它们最大的公共子聚类的距离。我觉得与这些单独的部分一起工作通常有益,而不仅仅是它们的总和。上表将变为:
Top-Bottom Left-Right
Mirkin 0,9900 900,900
VI 0,4.605 2.303,2.303
Split/join 0,99 90,90
顶部和底部之间的包含关系立即变得清晰。知道两个聚类是否一致(即一个聚类(几乎是另一个聚类))通常是非常有用的,因为这可以放松它们是否接近的问题。聚类可能与黄金标准相距甚远,但仍保持一致或接近一致。在这种情况下,可能没有理由考虑相对于该黄金标准的聚类不良。当然,琐碎的群集“顶部”和“底部”将与任何群集保持一致,因此必须将其考虑在内。
最后,我相信诸如Mirkin,信息变异和Split / Join之类的指标是比较聚类的自然工具。对于大多数应用程序,试图合并统计独立性并纠正偶然性的方法过于虚构和模糊不清。
第二个示例 考虑以下几对聚类: C1 = {{1,2,3,4,4,5,6,7,8},{9,10,11,12,13,13,14,15,16}}} = {{1,2,3,4,5,6,7,8,9,10},{11,12,13,13,14,15,16}}
和 C3 = {{1,2,3,4},{5,6,7,8,9,10},{11,12,13,14,15,15,16}}},{{1,2,3 ,4},{5、6、7、8、9、10、11、12},{13、14、15、16}}
在这里C2可以通过移动节点9、10和C3由C1形成可以通过移动节点11和12 由C3形成。除了所涉及的簇的大小不同之外,这两个更改都是相同的(“移动两个节点”) 。这两个示例的聚类指标表是这样的:
C1-C2 C3-C4
Mirkin 56 40
VI 0.594 0.520
Split/Join 4 4
可以看出,Mirkin / Rand和信息的变化受集群大小的影响(并且Mirkin的影响更大;随着集群大小的不同,这种变化会更加明显),而Split / Join距离不受影响(其值为4因为它总是通过最大的公共子集群将节点从一个集群“移动”到另一个集群)。根据情况,这可能是理想的特性。拆分/连接(要移动的节点数)的简单解释及其群集大小的独立性值得关注。在Mirkin和信息变化之间,我认为后者是非常可取的。