Mclust模型选择


11

R软件包mclust使用BIC作为选择集群模型的标准。据我了解,应该选择BIC最低的模型而不是其他模型(如果您仅关心BIC)。但是,当BIC值均为负时,该Mclust功能默认为具有最高BIC值的模型。我的来自各种试验总体理解是mclust识别“最好”的模型作为那些具有max{BICi}

我试图理解作者为什么做出这个决定。它在CRAN站点中进行了说明:https ://cran.r-project.org/web/packages/mclust/vignettes/mclust.html

另外,mclust软件包的作者在第5页的基于模型的分类方法:使用化学计量学中的mclust软件中对此进行了记录。

“最佳”模型被认为是拟合模型中BIC最高的模型。

谁能在这个问题上大放异彩?如果较低的BIC总是更好,那么为什么作者不选择具有最低BIC的模型,而是选择具有最小绝对BIC的模型?如果可能,请提供参考。

Answers:


10

找到解决方案:

因此,为了重申这个问题,为什么Mclust函数默认将BIC值最高的模型作为“最佳”模型?

好问题!让我给你一个漫长的答案。

TL; DR:BIC值是近似(不是最大)似然的近似值,并且您需要具有最大综合似然性(贝叶斯因子)的模型,因此您选择具有最大BIC的模型。

长答案:在基于启发式的聚类方法(例如k均值和聚类)中使用基于模型的聚类的目的是为比较和选择适合您的数据的聚类模型提供更正式和直观的方法。

Mclust使用基于概率模型(高斯混合模型)的聚类技术。使用概率模型可以开发基于模型的方法来比较不同的聚类模型和大小。有关更多详细信息,请参见*基于模型的分类方法:在Chemometrics *中使用mclust软件(https://www.jstatsoft.org/article/view/v018i06)。

如上所述,作者指出“最佳”模型是具有最大BIC值的模型。这是来自增强型基于模型的聚类,密度估计和判别分析软件的另一个示例:MCLUSThttps://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf):

贝叶斯信息准则或BIC(?)是最大化对数似然的值,但对模型中的参数数量有所影响,并且可以比较具有不同参数化和/或不同聚类数量的模型。通常,BIC的值越大,则表明该模型和聚类数量的证据越强(参见,例如Fraley和Raftery 2002a)。

模型选择:集群中已有一个概率模型,您可以使用更复杂的工具通过贝叶斯因子通过贝叶斯模型选择来比较多个集群模型。

在他们的论文《多少个集群?哪种聚类方法?通过基于模型的聚类分析得出答案http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf

贝叶斯因子是一种模型相对于另一种模型的后验几率,假设两者都不符合先验条件。Banfield和Raftery [2]使用启发式近似法将对数贝叶斯因子(称为“ AWE”)加倍,以根据分类可能性确定层次聚类中的聚类数。当使用EM来找到最大混合可能性时,可以使用更可靠的近似值来近似两倍的对数贝叶斯因子,即BIC(Schwarz [32]):

2log(p(x|M))+constant2lM(x,θ^)mmlog(n)BIC

p(x|M)lM(x,θ^)a priorip(x|M)M

因此,总而言之,不应最小化BIC。使用这种基于模型的聚类方法的人应该寻找能够最大化BIC的模型,因为它以最大的综合似然来近似贝叶斯因子。

最后一条语句也有参考:

Banfield,JD和Raftery,AE(1993)基于模型的高斯和非高斯聚类。生物识别技术,49,803–821。

编辑:基于电子邮件交流,

附带说明,请始终检查BIC的定义方式。有时,例如,在大多数回归上下文中(传统上将统计信息用于参数估计的最小化,例如残差平方和,偏差等),BIC计算为-2 * loglik + npar * log(n),即mclust中使用了什么。显然,在这种情况下,应将BIC降至最低。

BIC=2×ln(L(θ|x))+k×ln(n)


1
不确定此回复的电子邮件通信与哪个版本的Mclust相关。Mclust的版本4使用BIC的否定部分,因此应最大化。希望它对尝试确定应最大化还是最小化的人们可能有用。
拉西卡(Rasika)

感谢您指出这一点,我将更新此问题,使其有意义。我也可能会研究文档,以查看他们为什么这么多年后才决定进行此更改
Jon
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.