找到解决方案:
因此,为了重申这个问题,为什么Mclust
函数默认将BIC值最高的模型作为“最佳”模型?
好问题!让我给你一个漫长的答案。
TL; DR:BIC值是近似(不是最大)似然的近似值,并且您需要具有最大综合似然性(贝叶斯因子)的模型,因此您选择具有最大BIC的模型。
长答案:在基于启发式的聚类方法(例如k均值和聚类)中使用基于模型的聚类的目的是为比较和选择适合您的数据的聚类模型提供更正式和直观的方法。
Mclust使用基于概率模型(高斯混合模型)的聚类技术。使用概率模型可以开发基于模型的方法来比较不同的聚类模型和大小。有关更多详细信息,请参见*基于模型的分类方法:在Chemometrics *中使用mclust软件(https://www.jstatsoft.org/article/view/v018i06)。
如上所述,作者指出“最佳”模型是具有最大BIC值的模型。这是来自增强型基于模型的聚类,密度估计和判别分析软件的另一个示例:MCLUST(https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf):
贝叶斯信息准则或BIC(?)是最大化对数似然的值,但对模型中的参数数量有所影响,并且可以比较具有不同参数化和/或不同聚类数量的模型。通常,BIC的值越大,则表明该模型和聚类数量的证据越强(参见,例如Fraley和Raftery 2002a)。
模型选择:集群中已有一个概率模型,您可以使用更复杂的工具通过贝叶斯因子通过贝叶斯模型选择来比较多个集群模型。
在他们的论文《多少个集群?哪种聚类方法?通过基于模型的聚类分析得出答案(http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf)
贝叶斯因子是一种模型相对于另一种模型的后验几率,假设两者都不符合先验条件。Banfield和Raftery [2]使用启发式近似法将对数贝叶斯因子(称为“ AWE”)加倍,以根据分类可能性确定层次聚类中的聚类数。当使用EM来找到最大混合可能性时,可以使用更可靠的近似值来近似两倍的对数贝叶斯因子,即BIC(Schwarz [32]):
2log(p(x|M))+constant≈2lM(x,θ^)−mmlog(n)≡BIC
p(x|M)lM(x,θ^)a priorip(x|M)M
因此,总而言之,不应最小化BIC。使用这种基于模型的聚类方法的人应该寻找能够最大化BIC的模型,因为它以最大的综合似然来近似贝叶斯因子。
最后一条语句也有参考:
Banfield,JD和Raftery,AE(1993)基于模型的高斯和非高斯聚类。生物识别技术,49,803–821。
编辑:基于电子邮件交流,
附带说明,请始终检查BIC的定义方式。有时,例如,在大多数回归上下文中(传统上将统计信息用于参数估计的最小化,例如残差平方和,偏差等),BIC计算为-2 * loglik + npar * log(n),即mclust中使用了什么。显然,在这种情况下,应将BIC降至最低。
BIC=−2×ln(L(θ|x))+k×ln(n)