k均值|| 又名可扩展K均值++
Bahman Bahmani等。引入了k-means ||,这是k-means ++的更快版本。 此算法取自其论文的第4页,Bahmani,B.,Moseley,B.,Vattani,A.,Kumar,R.,&Vassilvitskii,S.(2012)。可扩展的k-均值++。VLDB基金会论文集,5(7),622-633。 不幸的是,我不理解那些花哨的希腊字母,因此我需要一些帮助以了解其工作原理。据我了解,该算法是k-means ++的改进版本,它使用过采样来减少迭代次数:k-means ++必须迭代次,其中k是所需簇的数量。ķkkķkk 通过一个有关k-means ++如何工作的具体示例,我得到了很好的解释,因此我将再次使用相同的示例。 例 我有以下数据集: (7,1),(3,4),(1,5),(5,8),(1,3),(7,8),(8,2),(5,9),(8 ,0) (所需簇数)k = 3k=3k = 3 (过采样因子)ℓ = 2ℓ=2\ell = 2 我开始进行计算,但是不确定是否正确,也不知道第2步,第4步或第5步。 步骤1:从X随机地均匀采样一个点C←C←\mathcal{C} \leftarrowXXX 比方说,所述第一质心是(同k均值++)(8,0)(8,0)(8,0) 步骤2:ψ←ϕX(C)ψ←ϕX(C)\psi \leftarrow \phi_X(\mathcal{C}) 不知道 第三步: d2(x,C)=[2,41,74,73,58,65,4,90]d2(x,C)=[2,41,74,73,58,65,4,90]d^2(x, \mathcal{C}) = [2, 41, 74, 73, 58, 65, 4, 90] 我们计算到每个点最近的中心的平方距离。在这种情况下,我们只有一个中心,到目前为止,。(8,0)(8,0)(8,0) ℓ⋅d2(x,C)=[4,81,148,146,116,130,8,180]ℓ⋅d2(x,C)=[4,81,148,146,116,130,8,180]\ell \cdot d^2(x, \mathcal{C}) = …