在哪里可以找到对测试我自己的机器学习实现有用的数据集？[关闭]

我目前正在尝试自行实现一些机器学习算法。他们中的许多人具有难以调试的讨厌特性，某些错误不会导致程序崩溃，而是无法按预期方式工作，而且似乎算法给出的结果较弱。

我想以某种方式增加对实现的信心，例如，如果我有一些小型数据集，并带有其他信息“算法X用于Y迭代，并且结果Z在该数据集上”，那将非常有帮助。有人听说过这样的数据集吗？

dataset

您在调查这个问题上做了什么研究？乍一看，人们会认为您用来查找这些算法的文献充斥着样本数据集。

— ub

好吧，我主要从大学课程，Coursa，互联网上的讲座视频以及我读过的有关特定主题的几篇论文中了解ML。我知道到处都有很多样本数据集，但是我正在寻找一些信息，以了解如何对它们执行不同的ML算法，因此我可以验证自己的实现。

— sjm.majewski，2012年

最近在ICML上有一篇关于标准化数据集问题的好论文-它使您不必太费劲地思考现实世界的问题以及现实世界所涉及的混乱情况。就我个人而言，当我开始使用现实世界的数据时，我作为一名执业医生的技能就开始蓬勃发展。因此，尽管我不会阻止您使用UCI之类的东西作为垫脚石或测试，但请注意奖金！

— Patrick Caldon

您应该指定正在执行的机器学习类型。二进制分类数据集与函数逼近（回归）数据集不同。

— 道格拉斯·扎里

stackoverflow.com/questions/3272806/...

— 阿布舍克古普塔

Answers:

来自UC Irvine机器学习存储库：

我们目前维护着223个数据集，以为机器学习社区提供服务。您可以通过我们的可搜索界面查看所有数据集。对于喜欢旧格式的人，我们的旧网站仍然可用。...如果您希望捐赠数据集，请查阅我们的捐赠政策。...我们还为存储库设置了一个镜像站点。

此外，以下MIAS数据集已被广泛使用和研究：

在对算法进行基准测试时，建议使用标准测试数据库（数据集），以使研究人员能够直接比较结果。大多数乳腺摄影数据库不是公开可用的。最易于访问的数据库（因此也是最常用的数据库）是乳房X线图像分析协会（MIAS）数据库和用于乳房X线检查的数字数据库（DDSM）。此外，目前很少有开发新的乳腺X射线摄影图像数据库的项目以及几个老项目。

— 深度学习
source

+1如果您继续找到更多资源，请随时扩大此答案。

— ub

Bashar提到的UCI存储库可能是最大的，不过我想添加一些我遇到的较小的集合：

花木兰Java库中的数据集
卡内基梅隆大学计算机科学学院Auton实验室的数据集
统计学习用书中使用的数据集
来自KDD Cup比赛的一些数据集
慕尼黑大学统计系的数据集

— sebp
source