估计k均值集群分区中最重要的功能


19

有没有办法确定数据集的哪些特征/变量在k均值聚类解决方案中最重要/最重要?


1
您如何定义“重要/主要”?您是说区分群集最有用的吗?
Franck Dernoncourt,2013年

3
是的,最有用的是我的意思。我认为弄清楚这个问题的部分原因是如何措辞。
user1624577

感谢您的澄清。在机器学习中指定此问题的一个常用术语是特征选择
2013年

Answers:


8

Burns,Robert P.和Richard Burns的书中量化每种功能(=变量=尺寸)的实用性的一种方法 使用SPSS的商业研究方法和统计数据。Sage,2008年。镜像),有用性由功能区分群集的区分能力定义。

我们通常使用ANOVA来检查每个维度上每个聚类的均值,以评估聚类的差异性。理想情况下,对于分析中使用的大多数(如果不是全部)维度,我们将获得明显不同的方法。在每个维度上执行的F值的大小指示相应维度在群集之间的区分程度。

另一种方法是删除特定功能,并查看其如何影响内部质量指标。与第一种解决方案不同,您必须为要分析的每个功能(或一组功能)重做群集。

仅供参考:


4
补充说,在这方面应该是非常重要的不是采取这些F(或P)值的统计意义的指标(即相对人口),而是仅仅作为的差异幅度的指标。
ttnphns

3

我可以想到另外两种可能性,它们更多地关注哪些变量对哪些集群很重要。

  1. 多类分类。考虑属于同一类的群集x成员的对象(例如,类1)和属于第二类的其他群集成员的对象(例如,类2)。训练分类器以预测班级成员资格(例如,班级1与班级2)。分类器的变量系数可用于估计将变量聚类到x的每个变量的重要性。对所有其他群集重复此方法。

  2. 集群内变量相似度。对于每个变量,计算每个对象与其质心的平均相似度。质心与其对象之间具有高度相似性的变量比具有相似性的变量对聚类过程更重要。当然,相似度是相对的,但是现在可以按变量在每个群集中帮助群集对象的程度对它们进行排名。


0

这是一个非常简单的方法。请注意,两个聚类中心之间的欧式距离是各个要素之间平方差的总和。然后,我们可以使用平方差作为每个要素的权重。

欧氏距离

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.