D p i c j表示输入点和中心点之间的欧几里得距离。每个点将自己分配给最近的聚类中心,将顶点分为k个不同的聚类。
该问题称为(离散)聚类问题,它是NP困难的。从NP完全控制集问题的简化可以看出,如果存在ρ < 2的问题的ρ-近似算法,则P = NP。
最佳逼近算法非常简单直观。一个第一纬点p ∈ P任意,并把它在该组Ç聚类中心。然后,选择一个下一个群集中心,使其距离所有其他群集中心尽可能远。因此,当| C | < ķ,我们发现反复的点Ĵ ∈ P的量,距离d (Ĵ ,Ç )最大化,并且将其添加到Ç。一次| C | = k我们完成了。
不难看出最优贪婪算法在时间内运行。这就提出了一个问题:我们可以达到o (n k )时间吗?我们能做多少呢?