2
聚类问题的特征选择
我正在尝试使用无监督算法(聚类)将不同的数据集组合在一起。问题是我有很多功能(〜500)和少量情况(200-300)。 到目前为止,我以前只做分类问题,对此我总是将数据标记为训练集。在那里,我使用了一些标准(即random.forest.importance或information.gain)来预先选择特征,然后我使用了针对不同学习者的顺序正向选择来找到相关特征。 现在,我看到在无监督学习的情况下,我既没有任何预选标准,也不能使用顺序正向选择(至少在mlr软件包中没有)。 我想知道是否可以先进行主成分分析,然后再找到少量适合我的聚类算法的功能。还是您还有其他想法? 谢谢 编辑: 好的,所以在网上进行了一些研究之后,我可以稍微更新一下我的问题:首先,由于两个原因,我读了一些不鼓励在聚类算法之前使用PCA的文章: PC具有所有功能的功能,因此很难将结果与初始数据集相关联,因此很难解释 此外,如果您有一个问题,就是实际上只有很少一部分功能有助于进行聚类,则不必说这些功能也描述了样本之间最大的差异(PC就是这样做的) 因此PCA不在桌面上... 现在,我回到了最初的想法,对集群进行顺序的前向选择。 您会推荐什么绩效指标?(我想到过Dunn-Index)哪种聚类算法会导致大小大致相同的聚类?(对于分层集群,我通常会得到一个集群,其中有一个异常值,而另一个集群则具有所有其他异常值->因此,我需要某种可以防止异常值的东西) 希望你们能帮助我...