寻找2D人工数据以演示聚类算法的属性


9

我正在寻找遵循不同分布和形式的二维数据点(每个数据点是两个值(x,y)的向量)的数据集。生成此类数据的代码也将有所帮助。我想使用它们来绘制/可视化某些聚类算法的性能。这里有些例子:


我投票给cw;)
steffen 2012年

在特定的数据集的线类似的问题已经在这里关闭:stats.stackexchange.com/questions/38928/...
灵车

对于SPSS,我编写了一个群集生成宏(请访问我的页面,请参阅“生成群集”)。但是,它不会产生自夸的形状,例如环形或螺旋形。
ttnphns

Answers:


11

R附带了很多数据集,看起来只需几行代码即可重现您引用的大多数示例,这没什么大不了的。您可能还会发现mlbench软件包很有用,特别是以开头的综合数据集mlbench.*。下面给出了一些插图。

在此处输入图片说明

通过查看CRAN 上的群集任务视图,可以找到其他示例。例如,fpc程序包具有一个内置生成器,用于“面部形状”的聚类基准数据集(rFace)。

在此处输入图片说明

类似的注意事项适用于Python,您将在其中找到有趣的基准测试和数据集,以使用scikit-learn进行聚类。

UCI机器学习存储库也包含许多数据集,但是最好用自己选择的语言自己模拟数据。



2

玩具聚类基准包含ARFF格式的各种数据集(可以轻松转换为CSV),其中大多数带有地面真相标签。基准测试应验证聚类算法的基本所需属性。大多数数据集来自以下群集文件:

  • 桦木 -张,田,Raghu Ramakrishnan和Miron Livny。“ BIRCH:一种用于大型数据库的有效数据聚类方法。” ACM SIGMOD记录。卷 25.第2号。ACM,1996年。
  • CURE -Guha,Sudipto,Rajeev Rastogi和Kyuseok Shim。“ CURE:针对大型数据库的高效集群算法。” ACM SIGMOD记录。卷 27.第2号。ACM,1998年。
  • 变色龙 -Karypis,George,Eui-Hong Han和Vipin Kumar。“变色龙:使用动态建模的分层聚类。” 计算机32.8(1999):68-75。
  • 基本聚类问题套件 -Ultsch,A .:使用SOM聚类:U * C,在过程中。自组织地图研讨会,法国巴黎,(2005年),第75-82页
  • MOCK-Handl,Julia和Joshua Knowles。“一种用于多目标聚类的进化方法。” 进化计算,IEEE Transactions on 11.1(2007):56-76。
  • 基于路径的稳健光谱聚类 -Chang,Hong和Dit-Yan Yan。“基于稳健路径的光谱聚类。” 模式识别41.1(2008):191-203。

karypis数据 簇数据


1

ELKI带有几个数据集(也请检查单元测试,它们包含的内容比网站上的要多得多,还有参数设置)。

它还包括一个相当灵活的数据生成器。


1

是一个可定制的集群生成器。它仅处理特定类别的数据集,但可以肯定地用于群集算法研究。

这是它可以创建的集群类型的示例:

http://i.stack.imgur.com/vrCG5.png

群集隶属关系保存在文本文件中。该代码在MIT许可下是开源的。


1

这个Matlab脚本生成2D数据以进行聚类。它接受几个参数,以便生成的数据在用户要求之内。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.