我应该如何解释GAP统计信息?


10

我使用GAP统计信息来估算R中的k个聚类。但是,我不确定我是否解释得很好。 在此处输入图片说明

从上图可以看出,我应该使用3个群集。

在此处输入图片说明

从第二个图中,我应该选择6个群集。GAP统计信息的正确解释吗?

我将不胜感激。


两个问题-第一幅图显示了什么?是否是同一数据的GAP统计信息?为什么它看起来与第二个(我看到的是GAP)有所不同。您使用了哪些R函数?第二个问题:您是否使用“ 1-标准误差”规则为第二个图选择了6个?
Deathkill14年

因此,有两种不同的聚类方法。第一个基于时间序列-在26周内的销售量,我基于动态时间扭曲对数据进行了聚类。第二种方法是也基于动态时间扭曲对生长曲线参数进行聚类。我clusGap基于globalmax使用,我不知道如何实现maxSE。
彼得2014年

Answers:


11

为了获得理想的聚类,您应该选择以使差距统计最大化。这是Tibshirani等人给出的示例。(2001年)在他们的论文中,该图是由具有2个聚类的人工数据形成的。如您所见,2显然是理想的,因为在,间隙统计量最大化:ķķķ=2

差距统计

但是,在许多现实世界的数据集中,聚类的定义不够明确,我们希望能够在最大化缺口统计量与模型简约性之间取得平衡。恰当的例子:OP的第一张图片。如果使差距统计最大化,则应该选择具有30个(甚至更多!)集群的模型。当然,假设该图将继续增加,那么结果就没那么有用了。因此Tibshirani建议采用1-标准误差方法:

选择簇大小为最小的,以使。ķ^ķ间隙ķ间隙ķ+1个-sķ+1个

非正式地,这是确定差距统计的增长率开始“放缓”的点。

因此,在OP的第一张图片中,如果我们将红色误差线作为标准误差,则3是满足该标准的最小:ķ

带注释的图像1

但是,对于OP的第二张图片,您会看到,间隙统计量立即减小。因此,满足1标准误差标准的第一个是。这是该图表示数据不应聚类的方式。ķ>1个ķ1个

事实证明,还有其他方法可以选择最佳。例如,R函数的默认方法始终搜索图的局部最大值,并选择局部最大值的一个标准误差内的最小。使用这种方法,我们将分别为OP的图1和图2 选择和。但是,正如我所说,这似乎遇到了复杂性问题。ķclusGapķfirstSEmaxķ=30ķ=19

资料来源:Robert Tibshirani,Guenther Walther和Trevor Hastie(2001)。通过差距统计量估算数据集中的簇数。


1
ķķ

感谢您指出在最大化差距统计量和简化模型之间的权衡
cloudcomputes
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.