我正在寻找遵循不同分布和形式的二维数据点(每个数据点是两个值(x,y)的向量)的数据集。生成此类数据的代码也将有所帮助。我想使用它们来绘制/可视化某些聚类算法的性能。这里有些例子:
- 星状云数据
- 四个集群,一个容易分离
- 螺旋形(无簇)
- 戒指
- 两片几乎分开的云
- 两个平行的簇形成螺旋
- ...等等
我正在寻找遵循不同分布和形式的二维数据点(每个数据点是两个值(x,y)的向量)的数据集。生成此类数据的代码也将有所帮助。我想使用它们来绘制/可视化某些聚类算法的性能。这里有些例子:
Answers:
以下是一些专门为此任务设计的数据集:
该玩具聚类基准包含ARFF格式的各种数据集(可以轻松转换为CSV),其中大多数带有地面真相标签。基准测试应验证聚类算法的基本所需属性。大多数数据集来自以下群集文件:
ELKI带有几个数据集(也请检查单元测试,它们包含的内容比网站上的要多得多,还有参数设置)。
它还包括一个相当灵活的数据生成器。
我不敢相信没有人提到费舍尔的虹膜数据。
我认为我没有看到没有使用虹膜数据作为示例的聚类技术。
在r中,只需键入“ iris”即可访问数据。
这是一个不错的(典型的)虹膜图示例:http: //ygc.name/2011/12/24/ml-class-7-kmeans-clustering/