1
R中混合数据的鲁棒聚类方法
我正在寻找一个小的数据集(对4个区间变量和一个三因素分类变量的64个观察值)进行聚类。现在,我对聚类分析还很陌生,但是我知道自从层次聚类或k均值成为唯一可用选项以来,已有了相当大的进步。特别是,似乎有可用的基于模型的聚类的新方法,如chl所指出的那样,可以使用“拟合优度指数来确定聚类或类的数量”。 但是,用于基于模型的群集的标准R包mclust显然不适合具有混合数据类型的模型。fpc由于连续变量的非高斯性质,我怀疑该模型会但很难拟合模型。我应该继续使用基于模型的方法吗?如果可能的话,我想继续使用R。如我所见,我有几种选择: 将三级分类变量转换为两个虚拟变量,然后使用mclust。我不确定这是否会使结果产生偏差,但是如果不是这样,则是我的首选。 以某种方式转换连续变量并使用该fpc包。 使用一些我还没有遇到过的R包。 使用Gower的度量创建一个相异矩阵,并使用传统的分层或重定位群集技术。 stats.se hivemind在这里有什么建议吗?