如何测试二进制数据的聚类是否有意义


12

我正在做购物车分析,我的数据集是交易向量集,以及要购买产品的项目。

在交易中应用k均值时,我总是会得到一些结果。随机矩阵也可能会显示一些簇。

有没有一种方法可以测试我发现的聚类是否很重要,或者很可能是巧合。如果是,我该怎么办。

Answers:


14

关于购物车分析,我认为主要目标是区分客户购买的最频繁的产品组合。在association rules这里代表了最自然的方法(事实上,他们为了这个目的实际上是开发)。分析客户购买的产品组合,并重复这些组合的次数,得出“如果条件,则结果”类型的规则,并带有相应的兴趣度度量。您也可以考虑Log-linear models调查所考虑的变量之间的关联。

现在,对于群集,以下一些信息可能会派上用场:

首先考虑一下Variable clustering。变量聚类用于评估共线性,冗余度,以及将变量分为可计为单个变量的聚类,从而导致数据减少。查找varclus功能(R中的Hmisc软件包)

评估群集稳定性:函数clusterboot{R package fpc}

用于聚类验证的基于距离的统计信息:函数cluster.stats{R package fpc}

如mbq所述,请使用轮廓宽度来评估最佳群集数。看这个。关于轮廓宽度,另请参阅optsil功能。

通过差距统计估计数据集中的簇

有关计算差异指标和距离度量的信息,请参见dsvdisvegdist

EM群集算法可以通过交叉验证来决定要创建多少个群集(如果您不能先​​验地指定要生成多少个群集)。尽管可以保证EM算法收敛到最大值,但这是局部最大值,不一定与全局最大值相同。为了获得全局最大值的更好机会,整个过程应重复几次,并对参数值进行不同的初始猜测。总体对数似然图可用于比较获得的不同最终配置:只需选择局部最大值中的最大值即可。您可以在开源项目WEKA中找到EM群集器的实现。

也是一个有趣的链接。

还搜索这里Finding the Right Number of Clusters in k-Means and EM Clustering: v-Fold Cross-Validation

最后,您可以使用clusterfly探索聚类结果


8

这是一种使用蒙特卡洛显示结果是否正确的方法。

我们的空假设H_0是我们的数据集没有有趣的聚类。我们的替代假设H_1是我们的数据集包含一个有趣的聚类。

因此,我们认为有趣的是,比具有相同行和列边距的随机数据集的聚类结构更有趣。当然,可以选择其他约束,但是松散的约束会使我们的结果过于笼统,而狭窄的约束将使聚类固定很多,因此自动使我们的结果微不足道。正如我们将看到的,由于存在使用随机余量进行随机化的方法,因此裕量是一个不错的选择。

让我们定义从Π_0开始的聚类误差(聚类内距离的平方)作为我们的测试统计量。我们原始数据集的值为t

我们对此分布一无所知,只是可以从中抽取样本。这使其成为蒙地卡罗的理想人选。

现在我们从Π_0中提取n个(iid)随机样本,并使用公式p_emp = 1 /(n + 1)*(Σ_i= 1-n I(t_i> = t)+ 1)计算经验p

可以通过交换随机化来进行随机采样。简而言之,搜索一个正方形,在两个相对的角上分别为1和在另外两个角上为0。然后翻转这些角。这将保留列和行的边距。该过程重复足够的次数,直到数据集足够随机为止(这将需要一些实验)。有关更多信息,请参见Gionis等人的“通过交换随机化评估数据挖掘结果”。等

一种方法是定义数据的分布,并将聚类错误作为检验统计量t。

例如,如果我们将具有相同行和列边距的所有数据集都视为我们的数据分布,则可以从该分布中获取n个随机矩阵Xi并为其计算聚类误差。然后我们可以通过公式计算出p值


4

有一个类似silhouette的东西,它在某种程度上定义了决定簇质量的统计量(例如,它用于优化k)。现在,可能的蒙特卡洛将如下所示:您生成了许多与原始数据类似的随机数据集(例如,通过对每列中的行之间的值进行混洗),进行聚类并获得均值轮廓分布,然后该分布可用于检验显着性真实数据中的轮廓图。我还是管理员,我从未尝试过这个想法。


1
这让我想起了我在2010年人脑测绘大会上看到的一张海报。汤姆·尼科尔斯(Tom Nichols)使用参数化引导程序来评估分层聚类中同类关系和轮廓的稳定性,但请参见他的海报:j.mp/9yXObA
chl 2010年

@chl谢谢;的确,最近我在实验室中看到了类似的事情。结果是,尽管群集并不重要:-/

我同意这听起来像自举。
Vass

(仅供参考:剪影值的解释)。另外,请注意,没有为k = 1聚类定义轮廓值,因此我们无法使用轮廓值比较假设k = 1(即数据集未聚类)与k> 1(数据集聚类)的假设。
Franck Dernoncourt
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.