标准和球形k均值算法之间的区别


28

我想了解一下,标准和球形k均值聚类算法之间的主要实现区别是什么。

在每个步骤中,k均值都会计算元素向量和聚类质心之间的距离,并将文档重新分配给这个质心最接近的质心。然后,重新计算所有质心。

在球面k均值中,所有向量均被归一化,距离度量为余弦不相似性。

这是全部,还是还有其他东西?

Answers:


23

问题是:

经典k均值和球形k均值有什么区别?

经典K均值:

在经典k均值中,我们力求最小化聚类中心和聚类成员之间的欧几里得距离。这背后的直觉是,对于该群集的所有元素,从群集中心到元素位置的径向距离应“具有相同性”或“相似”。

该算法是:

  • 设置集群数(又名集群数)
  • 通过将空间中的点随机分配给聚类索引进行初始化
  • 重复直到收敛
    • 对于每个点,找到最近的聚类,并将点分配给聚类
    • 对于每个聚类,找到成员点的平均值并更新中心平均值
    • 误差是集群距离的范数

球形K均值:

在球形k均值中,其思想是设置每个簇的中心,以使其均匀且使组件之间的角度最小。直觉就像看着星星-点之间的间距应该一致。该间距更容易量化为“余弦相似度”,但是这意味着没有“银河”星系在数据的天空上形成大片明亮的条带。(是的,我正在说明书的这一部分尝试与奶奶交谈。)

更多技术版本:

考虑一下矢量,您将图形绘制为带有方向且长度固定的箭头的事物。它可以翻译到任何地方,并且是相同的向量。参考

在此处输入图片说明

可以使用线性代数(尤其是点积)来计算空间中点的方向(其与参考线的角度)。

如果我们移动所有数据以使它们的尾部在同一点,则可以按它们的角度比较“向量”,并将相似的向量分组到一个群集中。

在此处输入图片说明

为了清楚起见,对向量的长度进行了缩放,以便更轻松地进行“眼球”比较。

在此处输入图片说明

您可以将其视为一个星座。单个星团中的恒星在某种意义上彼此靠近。这些是我眼中的星座。

在此处输入图片说明

通用方法的价值在于它使我们能够设计出没有几何尺寸的矢量,例如在tf-idf方法中,其中矢量是文档中的单词频率。添加的两个“和”词不等于“ the”。单词是非连续且非数字的。它们在几何意义上是非物理的,但是我们可以对其进行几何构造,然后使用几何方法进行处理。球形k均值可用于基于单词进行聚类。

[X1个ÿ1个X2ÿ2G[RØüp0-0.8-0.2013-0.7316-0.80.1-0.95240.3639一种0.20.30.2061-0.1434C0.80.10.47870.153-0.70.2-0.72760.3825一种0.90.90.7480.6793C]

一些要点:

  • 它们投射到一个单位范围内,以解决文档长度上的差异。

让我们研究一个实际的过程,看看我的“眼球”是多么(糟糕)。

程序是:

  1. (隐含在问题中)在原点连接向量尾巴
  2. 投影到单位球体上(以考虑文档长度的差异)
  3. 使用聚类来最小化“ 余弦差异

Ĵ=一世dX一世pC一世

dXp=1个-CØsXp=XpXp

(更多编辑即将推出)

链接:

  1. http://epub.wu.ac.at/4000/1/paper.pdf
  2. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.111.8125&rep=rep1&type=pdf
  3. http://www.cs.gsu.edu/~wkim/index_files/papers/refinehd.pdf
  4. https://www.jstatsoft.org/article/view/v050i10
  5. http://www.mathworks.com/matlabcentral/fileexchange/32987-the-spherical-k-means-algorithm
  6. https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/projects/MIT15_097S12_proj1.pdf

在文本文件中,我认为对齐字符或指示权重变化的“差异”功能可能对“紧密在一起”的文本进行有用的预处理,以改善有意义的聚类
EngrStudent-恢复莫妮卡

我在#1(sci.utah.edu/~weiliu/research/clustering_fmri/…)的链接中获得“禁止访问”
David Doria,

@大卫-我也是。互联网总是在运动中?稍等一会儿。
EngrStudent-恢复莫妮卡

1
经过一番犹豫之后,我选择了目前对此答案的否决权。这不仅是“奶奶”的解释,也是不精确的。radial distance from the cluster-center to the element location should "have sameness" or "be similar" for all elements of that cluster听起来简直是不正确或钝。在both uniform and minimal the angle between components“组件”中未定义。我希望如果您更加严格和扩展一点,可以改善潜在的好答案。
ttnphns
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.