如何测量团簇的形状?


14

我知道这个问题的定义不明确,但是有些群集往往是椭圆形或位于较低维空间中,而其他群集则具有非线性形状(在2D或3D示例中)。

是否有任何衡量团簇非线性(或“形状”)的方法?

请注意,在2D和3D空间中,查看任何群集的形状都不是问题,但是在高维空间中,要说些有关形状的问题。特别是,是否有任何度量凸簇的方法?

许多其他集群问题启发了我这个问题,在这些问题中人们谈论集群,但没人能看到它们(在高维空间中)。此外,我知道2D曲线存在一些非线性度量。


1
en.wikipedia.org/wiki/Topological_data_analysis可能会有所帮助,但形状并不完全符合您的意思。
ziyuang,2012年

1
也许您可以根据自己的需要调整紧凑性的概念。
user12719 2013年

Answers:


4

我喜欢高斯混合模型(GMM)。

它们的特征之一是,在概率域中,它们像分段插值器一样工作。其中的一个含义是它们可以充当替代基础,即通用近似器。这意味着对于非高斯分布,例如对数正态分布,Weibull或疯狂的非解析分布,只要满足某些条件,GMM就能近似该分布。

因此,如果您知道使用GMM的AICc或BIC最佳逼近的参数,则可以将其投影到较小的尺寸。您可以旋转它,并查看近似GMM的组件的主轴。

结果将是使用我们的3D观看视觉感知来查看高维数据最重要部分的一种信息丰富且视觉上可访问的方式。

编辑:(确定的事情,胡扯)

有几种查看形状的方法。

  • 您可以查看均值中的趋势。对数正态分布由一系列高斯近似,其均值逐渐接近并且权重随过程逐渐减小。总和近似于较重的尾巴。在n维中,一系列这样的分量将构成一个波瓣。您还可以跟踪均值(转换为高维)之间的距离以及之间的方向余弦。这将转换为更易于访问的尺寸。
  • 您可以制作一个3d系统,其轴为权重,均值的大小以及方差/协方差的大小。如果群集计数很高,则可以通过一种比较的方式查看它们。这是一种将3万个零件中的2万个测量值的5万个零件转换成几朵云的一种有价值的方法。如果愿意,我可以在那个空间中执行过程控制。我喜欢使用高斯混合模型的递归,该模型基于对高斯混合模型的各组成部分拟合的控件。
  • 就杂乱而言,您可以扔掉很小的重量,也可以丢掉每个协方差的重量,等等。
  • [R2
  • 您可以像气泡相交一样看它。每对GMM集群之间都存在相等概率(零Kullback-Leibler散度)的位置。如果跟踪该位置,则可以按该位置的隶属概率进行过滤。它将为您提供分类边界点。这将帮助您隔离“孤独者”。您可以计算每个成员超过阈值的此类边界的数量,并获取每个组件的“连接性”列表。您还可以查看位置之间的角度和距离。
  • 您可以使用给定高斯PDF的随机数对空间进行重新采样,然后对其进行主成分分析,然后查看特征形状和与之相关的特征值。

编辑:

形状是什么意思? 他们说,特异性是所有良好沟通的灵魂。 您对“措施”是什么意思?

关于其含义的想法:

  • 眼球规范感/一般形式的感觉。(极度定性,视觉上的可访问性)
  • GD&T形状(共面度,同心度等)的量度(极度定量)
  • 数字的东西(特征值,协方差等)
  • 有用的缩小尺寸坐标(例如GMM参数成为尺寸)
  • 降低噪声的系统(以某种方式平滑,然后呈现)

大多数“几种方式”都是这些方式的变体。


3

这可能很简单,但是您可以通过对每个群集进行特征值分析来获得一些见识。

我要尝试的是获取分配给聚类的所有点,并用多元高斯拟合它们。然后,您可以计算拟合的协方差矩阵的特征值并绘制它们。有很多方法可以做到这一点; 也许最著名和广泛使用的方法称为主成分分析或PCA

一旦有了特征值(也称为频谱),就可以检查它们的相对大小,以确定簇在某些维度上的“伸展度”。光谱越不均匀,簇越呈“雪茄形”,光谱越均匀,簇就越呈球形。您甚至可以定义某种度量标准来指示特征值的不均匀性(频谱熵?);请参阅http://en.wikipedia.org/wiki/Spectral_flatness

作为附带好处,您可以检查主要成分(与大特征值关联的特征向量),以查看“雪茄形”群集在数据空间中指向的“位置”。

自然地,这是任意聚类的粗略近似,因为它仅将聚类中的点建模为单个椭球。但是,就像我说的那样,它可能会给您一些见识。


+1简单化,也许;但这看起来很有效和实用。多元高斯拟合似乎没有任何优势:仅使用集中的集群内数据的SVD(本质上是集群上的PCA)。
ub

@whuber是的,我认为那些人在做同一件事!这种拟合更多是理论上所说的幕后发生的事情,而PCA是该过程的具体实现。我将编辑答案以使其更清楚。
lmjohns3,2013年

2

相关聚类算法(例如4C,ERiC或LMCLUS)通常将聚类视为线性流形。即d维空间中的k维超平面。好吧,因为4C和ERiC仅局部线性,因此它们实际上可以是非凸的。但是他们仍然尝试检测局部维数减少的簇。

在高维数据中找到任意形状的簇是一个相当棘手的问题。尤其是,由于维数的诅咒使搜索空间爆炸,同时,如果仍然需要,则还需要更大的输入数据显着的结果,。太多的算法没有注意发现的结果是否仍然很重要还是随机的。

因此,实际上,我认为在考虑高维空间中复杂簇的非凸性的凸性之前,还需要解决其他问题。

还可以看看在更高尺寸下计算凸包的复杂性...

此外,除了好奇心之外,您是否有真正的用例?


2

如果您的维数不大于2或3,则可能有可能多次将关注的群集投影到2D空间中并可视化结果或使用2D非线性度量。我之所以这样想,是因为使用了“随机投影”方法http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf

可以使用随机投影来减少维数以建立索引。从理论上讲,如果两个点在D维度上接近,并且您将d随机投影到d维度

具体而言,您可以考虑将地球仪投影到平坦的表面上。无论您如何计划,纽约和新泽西都会在一起,但很少会把纽约和伦敦推到一起。

我不知道这是否可以为您提供严格的帮助,但这可能是可视化群集的快速方法。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.