可分离数据的除K均值以外的聚类形式化


11

现实世界中的数据有时具有自然数量的集群(尝试将其集群成小于某个魔术系数k的集群数量会大大增加集群成本)。今天,我参加了亚当·迈耶森(Adam Meyerson)博士的演讲,他将这类数据称为“可分离数据”。

除了K均值以外,还有哪些聚类形式化方法可以用来利用数据的自然可分离性的聚类算法(近似或启发式算法)?

Answers:


11

Balcan,Blum和Gupta '09就是最近一个试图抓住这一概念的模型。他们给了各种聚类算法的目标时,数据满足一定的假设:即,如果数据是这样的,任何为聚类目标-近似是ε -close到最佳聚类,然后他们可以给有效的算法查找一个几乎-最佳聚类,即使对于c的值,对于c的值,找到c-近似值都是NP-Hard。这是关于数据某种程度上“不错”或“可分离”的假设。立顿(Lipton)在这方面有一篇不错的博客文章cϵcc

αα

我敢肯定有较早的工作和较早的相关概念,但这是与您的问题有关的一些最新理论结果。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.