是否有基于非距离的聚类算法?


14

似乎对于K均值和其他相关算法,聚类基于计算点之间的距离。有没有没有它的作品?


2
如果没有某种量化点的相似度或“接近度”的方法,那么“聚类”到底是什么意思?
ub

2
@Tim的回答非常好。如果它对您有所帮助,您可能要考虑批准和/或接受它;这是说“谢谢”的好方法。为了扩展他的想法,存在潜在的类分析该类分析将类似的方法应用于分类数据。FMM的非参数方法可通过多元内核密度估计的高度使用。有关更多信息,请参见通过非参数密度估计进行聚类:R Package pdfClusterpdf)。
gung-恢复莫妮卡

Answers:


25

这种方法的一个示例是用于聚类的有限混合模型(例如,此处此处)。在FMM中,您将变量的分布()视为分布()的混合:X ķ ˚F 1˚F ķfXKf1,...,fk

f(x,ϑ)=k=1Kπkfk(x,ϑk)

其中是参数而是混合物中第个分布的比例,而是参数(的或参数)分布。θ = π 'θ ' 1θ ' ķ' π ķ ķ θ ķ ˚F ķϑϑ=(π,ϑ1,...,ϑk)πkkϑkfk

离散数据的一种特殊情况是潜在类别分析(例如,此处),定义为:

P(x,k)=P(k)P(x|k)

其中是观察潜在类概率(即),是观察值的概率,是处于类的概率。ķ π ķ P X X P X | ķ X ķP(k)kπkP(x)xP(x|k)xk

通常对于FMM和LCA 都使用EM算法进行估计,但是也可以使用贝叶斯方法,但是由于模型识别和标签切换等问题(例如,西安的博客),要求更高。

因此,没有距离度量,而是一个定义数据结构(分布)的统计模型。因此,该方法的另一个名称是“基于模型的群集”。

查看有关FMM的两本书:

使用FMM的最受欢迎的群集软件包之一是mclust在此处此处检查)在R中实现。但是,也可以使用更复杂的FMM,例如检查flexmix软件包及其文档。对于LCA,有一个R poLCA软件包


您对不同的用例可能有什么了解?
shadowtalker 2014年

例如,“什么时候应该使用它,而不是围绕类固醇进行分区?” 无论如何
shadowtalker 2014年

1
@caveman指出,这只是一种符号约定。它是向量的向量,仅此而已。
蒂姆

1
@caveman混合中有不同的分布,它们每个都有自己的参数(这就是为什么我们有参数向量的原因)。˚F 1˚F ķk f1,...,fk
蒂姆

1
@caveman最典型的情况是,您有正态分布,例如均值和sd不同。但是它们可以有所不同,请参见cran.r-project.org/web/packages/flexmix/vignettes/…中的3.1示例,其中显示了两种不同的回归模型的混合。k
蒂姆

7

K均值不是“真正”基于距离的。它使方差最小化。(但是方差平方是欧几里得距离;因此,每个点都由欧几里得距离指定给最近的质心)。

有很多基于网格的聚类方法。他们不计算距离,因为这通常会产生二次运行时间。相反,他们将数据分区并将其聚合到网格单元中。但是,这种方法背后的直觉通常与距离密切相关。

有许多用于分类数据的聚类算法,例如COOLCAT和STUCCO。距离不易与此类数据一起使用(单热编码是一种技巧,并且不会产生特别有意义的距离)。但是我还没有听说有人在使用这些算法...

有图的聚类方法。但是它们要么简化为经典的图形问题,例如集团或近距查找和图形着色,要么它们与基于距离的聚类紧密相关(如果您有加权图形)。

像DBSCAN这样的基于密度的集群有一个不同的名称,它并不专注于最小化距离。但是“密度”通常是相对于距离指定的,因此从技术上讲,这些算法是基于距离的或基于网格的。

您遗漏的问题的关键部分是什么数据


1
+1:非常感谢您向您展示任何聚类算法如何使用某种隐含的(也许是)广义的“距离”或“相似性”,并且您在对许多此类算法进行了调查的同时这样做。
ub

我认为“基于距离”是指相似性指标,其中包括方差。
en1

1
为什么方差是相似性指标?与平方欧几里得距离有关;但不等于任意距离s
已退出–Anony-Mousse 2015年


2

纯粹的判别方法是Gomes等人的“规范化信息最大化”。没有任何涉及相似性/距离的概念。

这个想法是要有一个逻辑回归模型,例如将点放入箱中。但是,目标函数不是将其训练为最大化类标签的某种形式的对数似然性,而是将点放入不同聚类中。

为了控制模型使用的聚类数量,使用了由超参数加权的附加正则化项。归结为权重之前高斯的逆方差。λ

扩展内核方法或神经网络以进行非线性聚类非常简单。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.