Questions tagged «model-based-clustering»

1
R中混合数据的鲁棒聚类方法
我正在寻找一个小的数据集(对4个区间变量和一个三因素分类变量的64个观察值)进行聚类。现在,我对聚类分析还很陌生,但是我知道自从层次聚类或k均值成为唯一可用选项以来,已有了相当大的进步。特别是,似乎有可用的基于模型的聚类的新方法,如chl所指出的那样,可以使用“拟合优度指数来确定聚类或类的数量”。 但是,用于基于模型的群集的标准R包mclust显然不适合具有混合数据类型的模型。fpc由于连续变量的非高斯性质,我怀疑该模型会但很难拟合模型。我应该继续使用基于模型的方法吗?如果可能的话,我想继续使用R。如我所见,我有几种选择: 将三级分类变量转换为两个虚拟变量,然后使用mclust。我不确定这是否会使结果产生偏差,但是如果不是这样,则是我的首选。 以某种方式转换连续变量并使用该fpc包。 使用一些我还没有遇到过的R包。 使用Gower的度量创建一个相异矩阵,并使用传统的分层或重定位群集技术。 stats.se hivemind在这里有什么建议吗?

1
Mclust模型选择
R软件包mclust使用BIC作为选择集群模型的标准。据我了解,应该选择BIC最低的模型而不是其他模型(如果您仅关心BIC)。但是,当BIC值均为负时,该Mclust功能默认为具有最高BIC值的模型。我的来自各种试验总体理解是mclust识别“最好”的模型作为那些具有。max{BICi}max{BICi}max\{BIC_i\} 我试图理解作者为什么做出这个决定。它在CRAN站点中进行了说明:https ://cran.r-project.org/web/packages/mclust/vignettes/mclust.html 另外,mclust软件包的作者在第5页的基于模型的分类方法:使用化学计量学中的mclust软件中对此进行了记录。 “最佳”模型被认为是拟合模型中BIC最高的模型。 谁能在这个问题上大放异彩?如果较低的BIC总是更好,那么为什么作者不选择具有最低BIC的模型,而是选择具有最小绝对BIC的模型?如果可能,请提供参考。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.