关于群集,我有一个非常基本的问题。找到具有质心的k个聚类后,如何解释已聚类的数据点的类(将有意义的类标签分配给每个类)。我不是在谈论对发现的集群的验证。
可以给定一个小的标记数据点集,计算这些标记点属于哪个群集,并根据每个群集接收的点的类型和数量来确定标签吗?这似乎很明显,但我不知道以这种方式将标签分配给群集的标准。
需要明确的是,我想执行不使用任何标签的无监督群集来首先找到我的群集。找到集群之后,我想根据一些示例数据点的属性为集群分配有意义的类标签。
我不确定要了解您的问题:通常,任何k-means算法都应为每个数据点返回有关类成员资格的信息。您是在谈论实际数据点还是新观察?
—
chl 2013年
@chi我怀疑Riyaz担心要寻找用来标记聚类的名称,并且正在谈论先验地命名一些点,然后使用某种算法,该算法考虑聚类中命名点的优势来命名这些聚类。
—
Glen_b-恢复莫妮卡
@Riyaz,我们可以使用下面的类比分析来理解您的问题吗?通常有人会分析一组变量,将它们聚类为似乎“挂在一起”的变量组,但是分析人员需要考虑组成每个聚类的变量的性质,并为其命名。 /考虑每个群集(因子)是什么的方式。这基本上就是您在这里得到的吗?
—
gung-恢复莫妮卡