无量纲数据的聚类算法


12

我有一个包含数千个点的数据集,并且可以测量任意两个点之间的距离,但是数据点没有维数。我想要一种算法来在此数据集中找到聚类中心。我认为由于数据没有维度,因此群集中心可能由多个数据点和一个容差组成,并且群集中的成员资格可能由数据点到群集中心中每个数据点的距离的平均值来确定。

如果这个问题有一个众所周知的解决方案,请原谅我,我对这种问题知之甚少!我的研究(非常有限)仅提出了维度数据的聚类算法,但是如果我遗漏了一些明显的内容,我会提前道歉。

谢谢!


为什么无量纲会使这个问题变得特别?
拉斐尔

1
我看到的一些用于聚类的算法(实际上只是k均值)需要生成随机数据点作为种子,这对于无量纲数据是不可能的。因此,特殊的要求是聚类中心必须由一组现有的数据点(可能是加权的)表示。
paintcan 2010年

Answers:


15

kkkk

k

这两个问题通常都是NP难题,很难在任意因素内近似。请注意,如果您放弃成为度量标准的条件,那么在逼近性方面会变得更糟。

k

最终,与大多数集群问题一样,最终的选择取决于应用程序,数据大小等。


3
感谢您快速清晰的概述。我至少要花几天时间才能确定您是否回答了我的问题。在我充分理解我的问题之前,我似乎需要学习很多东西:)
paintcan 2010年

5

还有一个相关性聚类,它具有每对项目的输入信息,指示它们是属于同一集群还是属于不同集群。


是的,这是另一个很好的例子。当然,沃伦是这方面的专家!我不知道OP的输入是+/-,还是可以通过阈值转换。如果是这样,这绝对是一个可行的选择。
Suresh Venkat 2010年

5

如果您只是在寻找良好的经验性能,则亲和力传播算法通常比k中位数更好。有几种语言的可用代码,有关此算法的更详细出版物可在此处找到:http : //www.psi.toronto.edu/index.php?q=affinity%20propagation

is(i,ci)

scicis(i,i)


5

您的问题似乎暗示您正在寻找一种计算时间合理的算法。给定顶点(或点)的大小,将创建数据的加权图形表示并使用Markov聚类算法(MCL)对图形进行聚类。

http://www.micans.org/mcl/

MCL基于随机遍历加权图和非加权图以找到密集子图。它能够处理大型图形,并且已在许多知名的,使用良好的生物信息程序(例如BLAST)中使用。-优惠券


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.