寻找质心与寻找均值有何不同?


26

在执行分层聚类时,可以使用许多指标来度量聚类之间的距离。两个这样的度量标准意味着计算聚类中的质心和数据点的平均值。

均值和质心有什么区别?这些不是集群中的同一点吗?

Answers:


38

据我所知,一个聚类的“平均值”和单个聚类的质心是同一件事,尽管在处理多变量数据时,术语“质心”可能比“平均值”更为精确。

为了找到质心,每个维分别计算点位置的(算术)平均值。例如,如果您有以下几点:

  • (-1、10、3),
  • (0,5,2),和
  • (1、20、10),

那么质心将位于(((-1 + 0 + 1)/ 3,(10 + 5 + 20)/ 3,(3 + 2 + 10)/ 3),简化了(0,11 2/3, 5)。(注:质心不必是-很少是-原始数据点之一)

根据质心的物理解释,质心有时也称为质心或重心(它是由点定义的对象的质心)。像均值一样,质心的位置将与其他点的平方和距离最小化。

一个相关的想法是medoid,它是与所有其他数据点“最不相似”的数据点。与质心不同,质心必须是原始点之一。您可能还对与中位数相似的几何中位数感兴趣,但对于多元数据。这些都不同于质心。

但是,正如Gabe在他的回答中指出的那样,在比较聚类时,“质心距离”和“平均距离”之间存在差异。簇和之间的质心距离就是和之间的距离。的平均距离是由寻找每个集群中的点之间的平均成对距离来计算。换句话说,对于群集每个点,您计算,,...ABcentroid(A)centroid(B)aiAdist(ai,b1)dist(ai,b2)dist(ai,bn) 并将它们平均在一起。


在什么条件下质心和质心是相同的?还有为什么质心可以很好地代表一组点呢?
raikumardipak

@dkr,您可能希望将其作为一个新问题提出,以获得更多(和更深入的)答复。也就是说,差异可以归结为两点:1)要最小化的东西(质心的平方距离/ L2范数,中等的绝对距离/ L1范数)和2)输出是否可以是任何点(质心)或必须在数据集(中间)中。您可以想象它们会相同的情况,但总的来说它们不会相同。由于相同的原因,质心是“良好的”,即均值是平均的(到点的最小平方平方距离),并且也有类似的缺点(例如,对于异常值没有鲁棒性)。
马特·克劳斯

4

上面的答案可能不正确,请参见以下视频:https : //www.youtube.com/watch?v= VMyXc3SiEqs看来,平均值求和了群集1和群集2元素之间距离的所有组合-即n ^将2个距离相加,然后除以n ^ 2的平均值。

质心法首先计算其内部每个群集的平均值。然后,它计算这些平均点之间的一个距离。


1
嗨,加布!我认为您是在谈论视频的这一部分?据我所知,单个聚类的质心和均值是同一件事,但是,正如您所指出的,两个聚类之间的质心距离和平均距离是不同的量度。我以为OP正在询问前者,但我也稍稍编辑了后者。感谢您指出(+1),并欢迎进行交叉验证!
马特·克劳斯

-1

质心是群集中数据点的平均值,质心点不必出现在数据集中,而质心质点是更接近质心的数据点,质心必须存在于原始数据中

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.