聚类—克莱因伯格不可能定理的直觉


17

我一直在考虑写一篇有关Kleinberg(2002)的有趣分析的博客文章,该文章探讨了聚类的困难。克莱伯格(Kleinberg)概述了三个看似直观的聚类功能,然后证明不存在这种功能。有许多聚类算法可以满足这三个标准中的两个。但是,没有一个功能可以同时满足这三个条件。

简要和非正式地,他概述了三个愿望:

  • Scale-Invariance:如果我们对数据进行转换以使所有内容在各个方向上均等地伸展,则聚类结果不应更改。
  • 一致性:如果我们拉伸数据以使聚类之间的距离增加和/或聚类内的距离减小,则聚类结果不应更改。
  • 丰富性:理论上,聚类函数应该能够产生任意的数据点分区/聚类(在不知道任何两点之间的成对距离的情况下)

问题:

(1)是否有一个良好的直觉,几何图形可以显示这三个标准之间的不一致?

(2)这是指本文的技术细节。您必须阅读上面的链接才能理解问题的这一部分。

在本文中,定理3.1的证明对于我而言有些困难。我被困在:“让是一个满足一致性的聚类函数。我们声称,对于中的任何分区,都存在正实数,从而该对是强制。”Γ &Element; 范围˚F 一个< b b ΓfΓRange(f)a<b(a,b)Γ

我不知道这是怎么回事...下面的分区不是(例如,群集之间的最小距离大于群集内的最大距离)的反例吗?a>b

反例?

编辑:这显然不是一个反例,我使自己感到困惑(请参阅答案)。


其他论文:


关于“一致性”:仅当群集已经很好地分开时,才直观地需要此特性。如果不是,则数据中的簇数存在问题-对于分析,由于不受监督,这是一个问题。然后,很正常的期望是,随着您逐渐增加群集之间的距离(它们是由您生成的),分析会更改它在群集过程中所做的分配。
ttnphns

关于“丰富性”:很抱歉,我不明白这意味着什么(至少如您所说)。聚类算法很多,您如何期望它们都遵守某些特殊的要求?
ttnphns

关于您的图片:需要特殊的聚类方法来识别这种模式。传统/原始聚类方法源于生物学和社会学,其中聚类或多或少是球状密集的“岛”,而不是环礁。这些方法不能要求处理图片上的数据。
ttnphns

您可能也会对此感兴趣:Estivill-Castro,弗拉基米尔。“为什么有这么多的聚类算法:立场文件。” ACM SIGKDD勘探通讯4.1(2002):65-75。
Anony-Mousse-恢复莫妮卡2015年

我还没看过这篇论文。但是在许多聚类算法中,您都有一些距离阈值(例如,DBSCAN,分层聚类)。如果您缩放距离,当然还需要相应地缩放阈值。因此,我不同意他的尺度不变性要求。我也不同意丰富性。并非每个分区都必须是每种算法的有效解决方案。有数百万个随机分区。
Anony-Mousse-恢复莫妮卡2015年

Answers:


11

一种或另一种方式是,每种聚类算法都依赖于点的“接近度”概念。从直观上看,您可以使用相对(比例不变)概念或绝对(一致)接近性概念,但不能同时使用两者

我将首先尝试通过一个例子来说明这一点,然后继续说这种直觉如何与克莱因伯格定理相吻合。

一个说明性的例子

假设我们有两套S1S2270点的每个,配置在这样的平面:

两套270分

您可能在这两张图片中都看不到点,但这仅仅是因为许多点非常接近。放大时会看到更多点:270

设置1变焦

您可能会自然而然地同意,在两个数据集中,这些点都以三个簇的形式排列。但是,事实证明,如果放大的三个群集中的任何一个,您将看到以下内容:S2

设置2变焦

如果您相信绝对的接近性或一致性的概念,那么无论您在显微镜下看到的是什么,都仅由三个簇组成,这仍然会得到保持。实际上,S 1S 2之间的唯一区别是,在每个群集中,某些点现在更靠近在一起。另一方面,如果您相信相对的相对性或尺度不变性,您会倾向于认为S 2不是由3而是由3 × 3 = 9个簇组成。这些观点都不是错误的,但是您必须选择一种方法或另一种方法。S2S1S2S233×3=9

等距不变性的一种情况

如果将上述直觉与克莱因伯格定理进行比较,您会发现它们略有出入。确实,克莱因伯格定理似乎说,只要您不关心称为丰富性的第三个属性,就可以同时实现尺度不变性和一致性。但是,如果您同时坚持规模不变性和一致性,那么丰富度并不是失去的唯一属性。您还会失去另一个更基本的属性:等距不变。这是我不愿牺牲的财产。由于它并未出现在Kleinberg的论文中,因此我将在此稍等一下。

简而言之,如果聚类算法的输出仅取决于点之间的距离,而不取决于某些附加信息(例如,附加到点的标签或施加在点上的顺序),则它是等距不变的。我希望这听起来非常温和自然。Kleinberg论文中讨论的所有算法都是等距不变的,除了具有簇停止条件的单连锁算法。根据Kleinberg的描述,此算法使用这些点的字典顺序,因此其输出实际上可能取决于您如何标记它们。例如,对于一组三个等距点,单联动算法的输出为2k2根据您将三个点标记为“猫”,“狗”,“鼠标”(c <d <m)还是“汤姆”,“尖峰”,“杰瑞”(J, <S <T):

{猫,狗,老鼠}与{Tom,Spike,Jerry}的聚类

当然容易这个不自然的行为可以通过更换被修复 -cluster与停止条件“ ķ -cluster停止条件”。这个想法只是打破等距点之间的联系,并在我们最多到达k个簇时立即停止合并簇。修复后的算法在大多数情况下仍会产生k个簇,并且等距不变和比例不变。但是,与上述直觉相一致,它将不再是一致的。k(k) kk

对于等距不变性的精确定义,回想克莱因伯格限定聚类算法上的有限集合作为一个地图,分配给每个度量上小号的分区小号: 上两个度量和之间 的等距是排列,使得为所有点和在。 SSSd d '小号小号小号d 'X ÿ = d X ÿ X ÿ 小号

Γ:{metrics on S}{partitions of S}dΓ(d)
iddSi:SSd(i(x),i(y))=d(x,y)xyS

定义:如果聚类算法满足以下条件,则它是等距不变的:对于任何度量和,以及它们之间的任何等距,点和都位于当且仅当原始点和位于的同一群集中时。 d d 'X Ý Γd 'X Ý Γd Γddii(x)i(y)Γ(d)xyΓ(d)

当我们想到的聚类算法,我们经常识别抽象集合平面中的一个具体的点的集合,或在其他一些环境空间,想象不同的度量作为移动的点左右。确实,这是我们在上面的说明性示例中采取的观点。在这种情况下,等距不变性意味着我们的聚类算法对旋转,反射和平移不敏感。小号小号SSS

平面中的一组点及其两次旋转

克莱因伯格定理的一个变体

上面给出的直觉是由Kleinberg定理的以下变体捕获的。

定理:不存在同时一致且尺度不变的非平凡等距不变聚类算法。

在这里,由琐碎的聚类算法,我指的是以下两种算法之一:

  1. 为的每个指标分配离散分区的算法,其中每个群集都由一个点组成,S

  2. 分配给上每个指标的总分区(由一个集群组成)的算法。S

声称这些愚蠢的算法是仅有的两个等距不变算法,它们都是一致且尺度不变的。

证明: 令为我们的算法应该在其上运行的有限集。令为上的度量,其中任意一对不同的点都具有单位距离(即对于所有,)。由于是等距不变的,因此只有两种可能性:要么是离散分区,要么是块分区。首先让我们看一下是离散分区的情况。给定任何指标上Γ d 小号d X ÿ = 1 X ý 小号Γ Γd Γd Γd Γd d 小号1 d Γd = Γd Γ Γd dSΓdSd(x,y)=1xySΓΓ(d)Γ(d)Γ(d)Γ(d)dS,我们可以重新缩放比例,以使所有成对的点在下的距离。然后,通过一致性,我们发现。因此,在这种情况下,是将离散分区分配给每个指标的简单算法。其次,让我们考虑是块分区的情况。我们可以对上的任何度量进行重新缩放,以使所有成对的点之间的距离,因此一致性又意味着。因此,在这种情况下也是微不足道的。∎1dΓ(d)=Γ(d)ΓΓ(d)d1 Γd S1ΓΓ(d)=Γ(d)Γ

当然,这一证明与玛格丽塔·阿克曼(Margareta Ackerman)关于克莱因伯格原理的证明在精神上非常接近,亚历克斯·威廉姆斯(Alex Williams)的答案对此进行了讨论。


7

这就是我的直觉(来自我的博客文章的摘录)。

enter image description here

丰富性公理的结果是,我们可以定义两个不同的距离函数(左上)和(左下),分别将所有数据点放入单独的群集和其他群集中。然后,我们可以定义第三个距离函数(右上和右下),仅缩放以使d 3空间中的点之间的最小距离大于d 1空间中的最大距离。然后,我们得出了一个矛盾,因为通过一致性,对于d 1d 3变换,聚类应该是相同的,但是对于d 1d 3变换,聚类应该是相同的。d 2 d 3 d 2d1d2d3d2d3d1d1d3变换。d2d3


您是说d2的左下角吗?关于图的一件好事是,它显示了一致性不是一般理想的属性(或者过于宽松地表述了)。
xan 2015年

是的左下角,相应地编辑了答案。谢谢!
亚历克斯·威廉姆斯

在我完全理解您的答案之前,我想出了逻辑,结果证明这是您的双重对立:从所有点都在同一聚类中的聚类开始。通过将其缩小为任何其他布置的微型版本并将其缩放为其他布置的全尺寸版本,可以将其转换为任何其他布置。
xan 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.