Answers:
问题是:
经典k均值和球形k均值有什么区别?
经典K均值:
在经典k均值中,我们力求最小化聚类中心和聚类成员之间的欧几里得距离。这背后的直觉是,对于该群集的所有元素,从群集中心到元素位置的径向距离应“具有相同性”或“相似”。
该算法是:
球形K均值:
在球形k均值中,其思想是设置每个簇的中心,以使其均匀且使组件之间的角度最小。直觉就像看着星星-点之间的间距应该一致。该间距更容易量化为“余弦相似度”,但是这意味着没有“银河”星系在数据的天空上形成大片明亮的条带。(是的,我正在说明书的这一部分尝试与奶奶交谈。)
更多技术版本:
考虑一下矢量,您将图形绘制为带有方向且长度固定的箭头的事物。它可以翻译到任何地方,并且是相同的向量。参考
可以使用线性代数(尤其是点积)来计算空间中点的方向(其与参考线的角度)。
如果我们移动所有数据以使它们的尾部在同一点,则可以按它们的角度比较“向量”,并将相似的向量分组到一个群集中。
为了清楚起见,对向量的长度进行了缩放,以便更轻松地进行“眼球”比较。
您可以将其视为一个星座。单个星团中的恒星在某种意义上彼此靠近。这些是我眼中的星座。
通用方法的价值在于它使我们能够设计出没有几何尺寸的矢量,例如在tf-idf方法中,其中矢量是文档中的单词频率。添加的两个“和”词不等于“ the”。单词是非连续且非数字的。它们在几何意义上是非物理的,但是我们可以对其进行几何构造,然后使用几何方法进行处理。球形k均值可用于基于单词进行聚类。
一些要点:
让我们研究一个实际的过程,看看我的“眼球”是多么(糟糕)。
程序是:
(更多编辑即将推出)
链接:
radial distance from the cluster-center to the element location should "have sameness" or "be similar" for all elements of that cluster
听起来简直是不正确或钝。在both uniform and minimal the angle between components
“组件”中未定义。我希望如果您更加严格和扩展一点,可以改善潜在的好答案。