聚类问题的最优贪婪

16

$|P| = n$ $k$ $k$ $n$ $C = \{ c_1,c_2,\ldots,c_k\}$ $k$ $\text{cost}(C) = \max_i \min_j D(p_i, c_j)$ $D$ 表示输入点和中心点之间的欧几里得距离。每个点将自己分配给最近的聚类中心，将顶点分为不同的聚类。 $p_i$ $c_j$ $k$

该问题称为（离散）聚类问题，它是困难的。从控制集问题的简化可以看出，如果存在的问题的近似算法，则。 $k$ $\text{NP}$ $\text{NP}$ $\rho$ $\rho < 2$ $\text{P} = \text{NP}$

最佳逼近算法非常简单直观。一个第一纬点任意，并把它在该组聚类中心。然后，选择一个下一个群集中心，使其距离所有其他群集中心尽可能远。因此，当，我们发现反复的点的量，距离最大化，并且将其添加到。一次我们完成了。 $2$ $p \in P$ $C$ $|C| < k$ $j \in P$ $D(j,C)$ $C$ $|C| = k$

不难看出最优贪婪算法在时间内运行。这就提出了一个问题：我们可以达到时间吗？我们能做多少呢？ $O(nk)$ $o(nk)$

algorithms computational-geometry

— Juho
source

7

实际上，可以以几何方式解决问题，即我们希望用球覆盖点，其中最大的球的半径最小。 $V$ $k$

确实很容易实现，但是可以做得更好。Feder和Greene，1988年的近似聚类的最佳算法使用更聪明的数据结构获得了的运行时间，并进一步表明这在代数决策树模型中是最佳的。 $O(nk)$ $\Theta(n \log k)$

— Juho
source

1

我的问题：有没有办法使贪婪的采摘策略在时间内运行？ $o(|V|^2)$

在我看来，您已经描述了它。万一我在您的描述中读得太多，这就是我所了解的。具有将每个元素与到元素的距离之和关联的关联数据结构。可以以与的距离为代价初始化此数据结构，并且此初始化可以在不增加复杂性的情况下产生副作用。可以在选择新元素之后以为代价更新它，再次产生下一个元素作为副作用。重复得到 $V$ $S$ $O(|V|)$ $p$ $O(|V|)$ $S$ 。结果复杂度为。 $O(k |V|)$

— 程序员
source

1

但是请注意

的界限：在最坏的情况下，它可能等于

。我怀疑有些数据结构可以达到更好的界限，但是我真的不知道。

k

$k$

| V |

$|V|$

— Juho 2012年

o

$o$

O

$O$

k^{3}

$k^3$