Answers:
GGobi(http://www.ggobi.org/)以及R包rggobi非常适合此任务。
有关示例,请参见相关演示文稿:http : //www.ggobi.org/book/2007-infovis/05-clustering.pdf
可以使用clusterfly和gcExplorer包在R中完成高维度的集群结果探索。在这里寻找更多。
(数月后),描绘k-簇并查看各种k的效果的一种好方法是构建 最小生成树 并查看最长的边缘。例如,
这里有10个簇,具有9个最长的边855 899 942 954 1003 1005 1069 1134 1267
。为8,紫色899;等等。
单链接k聚类算法...恰好是Kruskal的算法...等同于找到MST并删除k-1个最昂贵的边。
— Wayne, 贪婪算法。
22000点,成对距离为242M,大约需要1 GB(float32):可能合适。
要在2d中查看高维树或图形,请参阅多维比例缩放(同样来自Kruskal),以及有关降维的大量文献。但是,如果使用dim> 20表示,大多数距离都将接近中值,因此我认为降维功能在那里不起作用。
还可以看一下开源数据挖掘软件ELKI。Wikimedia Commons拥有一个画廊,里面有用ELKI制作的图像,其中许多与聚类分析有关。
看一下Cluster 3.0。我不确定它是否可以满足您的所有需求,但是它的文档记录非常详尽,可以让您从一些距离度量中进行选择。可视化片段通过一个名为Java TreeView的单独程序(截图)。
GGobi对此确实很有趣。另一种方法可能是将相似性/反距离矩阵视为网络邻接矩阵,并将其馈入网络分析例程(例如,R中的igraph或Pajek)。使用这种方法,我将尝试在不同的切割点将切割的节点距离切割为二进位平局。
DataMelt免费数字软件包括名为JMinHep的Java库。请查看“数据群集”部分下的手册。它提供了一个GUI,以可视化XY中的多维数据点,并运行许多数据聚类算法。