我知道这个问题的定义不明确,但是有些群集往往是椭圆形或位于较低维空间中,而其他群集则具有非线性形状(在2D或3D示例中)。
是否有任何衡量团簇非线性(或“形状”)的方法?
请注意,在2D和3D空间中,查看任何群集的形状都不是问题,但是在高维空间中,要说些有关形状的问题。特别是,是否有任何度量凸簇的方法?
许多其他集群问题启发了我这个问题,在这些问题中人们谈论集群,但没人能看到它们(在高维空间中)。此外,我知道2D曲线存在一些非线性度量。
我知道这个问题的定义不明确,但是有些群集往往是椭圆形或位于较低维空间中,而其他群集则具有非线性形状(在2D或3D示例中)。
是否有任何衡量团簇非线性(或“形状”)的方法?
请注意,在2D和3D空间中,查看任何群集的形状都不是问题,但是在高维空间中,要说些有关形状的问题。特别是,是否有任何度量凸簇的方法?
许多其他集群问题启发了我这个问题,在这些问题中人们谈论集群,但没人能看到它们(在高维空间中)。此外,我知道2D曲线存在一些非线性度量。
Answers:
我喜欢高斯混合模型(GMM)。
它们的特征之一是,在概率域中,它们像分段插值器一样工作。其中的一个含义是它们可以充当替代基础,即通用近似器。这意味着对于非高斯分布,例如对数正态分布,Weibull或疯狂的非解析分布,只要满足某些条件,GMM就能近似该分布。
因此,如果您知道使用GMM的AICc或BIC最佳逼近的参数,则可以将其投影到较小的尺寸。您可以旋转它,并查看近似GMM的组件的主轴。
结果将是使用我们的3D观看视觉感知来查看高维数据最重要部分的一种信息丰富且视觉上可访问的方式。
编辑:(确定的事情,胡扯)
有几种查看形状的方法。
编辑:
形状是什么意思? 他们说,特异性是所有良好沟通的灵魂。 您对“措施”是什么意思?
关于其含义的想法:
大多数“几种方式”都是这些方式的变体。
这可能很简单,但是您可以通过对每个群集进行特征值分析来获得一些见识。
我要尝试的是获取分配给聚类的所有点,并用多元高斯拟合它们。然后,您可以计算拟合的协方差矩阵的特征值并绘制它们。有很多方法可以做到这一点; 也许最著名和广泛使用的方法称为主成分分析或PCA。
一旦有了特征值(也称为频谱),就可以检查它们的相对大小,以确定簇在某些维度上的“伸展度”。光谱越不均匀,簇越呈“雪茄形”,光谱越均匀,簇就越呈球形。您甚至可以定义某种度量标准来指示特征值的不均匀性(频谱熵?);请参阅http://en.wikipedia.org/wiki/Spectral_flatness。
作为附带好处,您可以检查主要成分(与大特征值关联的特征向量),以查看“雪茄形”群集在数据空间中指向的“位置”。
自然地,这是任意聚类的粗略近似,因为它仅将聚类中的点建模为单个椭球。但是,就像我说的那样,它可能会给您一些见识。
相关聚类算法(例如4C,ERiC或LMCLUS)通常将聚类视为线性流形。即d维空间中的k维超平面。好吧,因为4C和ERiC仅局部线性,因此它们实际上可以是非凸的。但是他们仍然尝试检测局部维数减少的簇。
在高维数据中找到任意形状的簇是一个相当棘手的问题。尤其是,由于维数的诅咒使搜索空间爆炸,同时,如果仍然需要,则还需要更大的输入数据显着的结果,。太多的算法没有注意发现的结果是否仍然很重要还是随机的。
因此,实际上,我认为在考虑高维空间中复杂簇的非凸性的凸性之前,还需要解决其他问题。
还可以看看在更高尺寸下计算凸包的复杂性...
此外,除了好奇心之外,您是否有真正的用例?
如果您的维数不大于2或3,则可能有可能多次将关注的群集投影到2D空间中并可视化结果或使用2D非线性度量。我之所以这样想,是因为使用了“随机投影”方法http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf。
可以使用随机投影来减少维数以建立索引。从理论上讲,如果两个点在D维度上接近,并且您将d随机投影到d维度
具体而言,您可以考虑将地球仪投影到平坦的表面上。无论您如何计划,纽约和新泽西都会在一起,但很少会把纽约和伦敦推到一起。
我不知道这是否可以为您提供严格的帮助,但这可能是可视化群集的快速方法。