高斯混合中的最佳组分数


10

因此,充分证明了以k均值获得最佳簇数的“想法”。我在高斯混合中找到了一篇有关执行此操作的文章,但不确定我是否对此深信不疑,请不太理解。有...一种更温和的方法吗?


4
您能否引用本文,或者至少概述其提出的方法?如果我们不知道基准线,很难想出一种“
温特勒

1
杰夫·麦克拉克伦(Geoff McLachlan)等人撰写了有关混合物分布的书籍。我确信这些方法包括确定混合物中组分数量的方法。您可能会看那里。我同意jbowman的观点,如果您能向我们表明您感到困惑是什么,那么最好的方法就是减轻您的困惑。
Michael R. Chernick

基于增量k均值估计高斯混合物的最佳数量,以进行说话人识别....其标题,可以免费下载。它基本上将集群的数量增加1,直到您看到两个集群相互依赖为止,诸如此类。谢谢!
JEquihua

为什么不只选择使可能性的交叉验证估计最大化的分量数呢?它的计算量很大,但是在大多数情况下,对于模型选择而言,交叉验证很难克服,除非要调整的参数很多。
迪克兰有袋博物馆,2013年

您能否解释一下可能性的交叉验证估计是什么?我不知道这个概念。谢谢。
JEquihua 2013年

Answers:


5

只是对Dikran Marsupial的评论的一些扩展(交叉验证)。主要思想是通过某种方式将数据分为训练和验证集,尝试使用不同数量的组件,然后根据相应的训练和验证可能性值选择最佳组件。

根据定义,GMM的可能性仅为,其中是分量(簇)的数量和,和是模型参数。通过更改的值,您可以像以下所示绘制训练和验证集的GMM可能性。pX|πμΣ=ķπķñX|μķΣķķπμΣķ

在此处输入图片说明

在此示例中,很明显,组件的最佳数量约为20。在Coursera上有关于此的漂亮视频,这是我从上面获得的图片。


另一种常用的方法是贝叶斯信息准则(BIC): ,其中是似然性,K是参数数量,是数据点数量。可以理解为对对数似然性增加了参数数量的损失。

一世C=-2日志大号+ķ日志ñ
大号ñ
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.