用于集群的可视化软件


14

我想聚集〜22000点。许多聚类算法可以在较高质量的初始猜测下更好地工作。有哪些工具可以使我对数据的大致形状有所了解?

我确实希望能够选择自己的距离度量标准,因此我可以输入成对距离列表的程序就可以了。我希望能够做一些事情,例如在显示器上突出显示一个区域或群集,并获得该区域中哪些数据点的列表。

首选自由软件,但我已经拥有SAS和MATLAB。

Answers:



5

可以使用clusterflygcExplorer包在R中完成高维度的集群结果探索。在这里寻找更多。


谢谢,但是使用clusterfly而不是直接调用ggobi有什么好处?该网站仅提及聚类方法,这很有趣,但还不是我的主要目标。gcexplorer的网站信息较少,但看起来像是在将数据拆分为集群后可视化数据。达到这一点后,我将尝试一下,但现在不需要了。

4

(数月后),描绘k-簇并查看各种k的效果的一种好方法是构建 最小生成树 并查看最长的边缘。例如,

替代文字

这里有10个簇,具有9个最长的边855 899 942 954 1003 1005 1069 1134 1267
。为8,紫色899;等等。

单链接k聚类算法...恰好是Kruskal的算法...等同于找到MST并删除k-1个最昂贵的边。

— Wayne, 贪婪算法

22000点,成对距离为242M,大约需要1 GB(float32):可能合适。

要在2d中查看高维树或图形,请参阅多维比例缩放(同样来自Kruskal),以及有关降维的大量文献。但是,如果使用dim> 20表示,大多数距离都将接近中值,因此我认为降维功能在那里不起作用。


2

在我的一个项目中,我在KNIME方面拥有丰富的经验。这是用于快速探索性采矿和制图的绝佳解决方案。最重要的是,它提供了R和Weka模块的无缝集成。


看起来像一个有用的程序,但是他们的网页不能说服我,因为它可以解决这个确切的问题。看起来范围太广,我不关心太多功能,很难做简单的事情。如果其他选择无法解决,我会再看一下。


1

看一下Cluster 3.0。我不确定它是否可以满足您的所有需求,但是它的文档记录非常详尽,可以让您从一些距离度量中进行选择。可视化片段通过一个名为Java TreeView的单独程序(截图)。


感谢您的建议,但是选择自己的距离度量的能力至关重要,因此这对我不起作用。不过,其他人可能会发现它很有用。

1

GGobi对此确实很有趣。另一种方法可能是将相似性/反距离矩阵视为网络邻接矩阵,并将其馈入网络分析例程(例如,R中的igraph或Pajek)。使用这种方法,我将尝试在不同的切割点将切割的节点距离切割为二进位平局。


我想到了这一点,但似乎没有一个合理的切入点,而且领域专家也无法证明这一点。

我认为这对于您指定的目的可能是任意的-老实说,您甚至可能不需要切成二进制,只需将领带值标签以1的比例重新编码为某个可管理的数字,然后逐步隐藏/显示领带各个级别(也可以选择隐藏/消除沿途的任何吊坠和孤儿)。不能直接按照书面要求回答您的请求,但是为什么不采用更典型的方法并使用不使用初始质心来识别初步聚类的混合聚类方法,然后将结果中的质心输入到您的新分析中呢?
谢尔比,2010年

我猜您是要尝试许多不同的截止日期,直到看到一些不错的结果?由于标准的多重比较,我希望避免这种情况。回复:您的第二个建议,我想我比这些算法更相信自己。我使用计算机来处理大量的数据,这些数据过于繁琐而无法手动完成,而不是取代我的想法。

1
您正在使用假设检验语言,但同时谈论一种非常探索性的方法,即在您看到它的同时也知道它-因此尚不清楚您在此部分分析中的真正目标是什么。如果您有假设要在以后进行测试(例如,预测集群成员身份或使用集群成员身份作为预测变量),那么您可以选择不做会吸引那里的偏见的事情。但是“多重比较”问题并没有真正体现在您正在描述的探索性问题中。可视截止只是为了帮助您了解其中的内容-但您的信任可能仍然放错了位置。
谢尔比,2010年

1

Weka是用于数据挖掘的开源程序(在Java中是可扩展的和可扩展的),Orange是用于数据挖掘和机器学习的开源程序和库(以Python编写)。它们都可以方便,有效地对多维数据进行可视化探索


Orange的功能页面显示“正在建设中”,并且没有列出我正在做的屏幕截图。weka根本没有功能列表。他们也许可以做我想做的事,但是如果他们不推广该功能,我怎么知道。我对其他选择深信不疑。

0

DataMelt免费数字软件包括名为JMinHep的Java库。请查看“数据群集”部分下的手册。它提供了一个GUI,以可视化XY中的多维数据点,并运行许多数据聚类算法。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.