我目前正在尝试自行实现一些机器学习算法。他们中的许多人具有难以调试的讨厌特性,某些错误不会导致程序崩溃,而是无法按预期方式工作,而且似乎算法给出的结果较弱。
我想以某种方式增加对实现的信心,例如,如果我有一些小型数据集,并带有其他信息“算法X用于Y迭代,并且结果Z在该数据集上”,那将非常有帮助。有人听说过这样的数据集吗?
您在调查这个问题上做了什么研究?乍一看,人们会认为您用来查找这些算法的文献充斥着样本数据集。
—
ub
好吧,我主要从大学课程,Coursa,互联网上的讲座视频以及我读过的有关特定主题的几篇论文中了解ML。我知道到处都有很多样本数据集,但是我正在寻找一些信息,以了解如何对它们执行不同的ML算法,因此我可以验证自己的实现。
—
sjm.majewski,2012年
最近在ICML上有一篇关于标准化数据集问题的好论文-它使您不必太费劲地思考现实世界的问题以及现实世界所涉及的混乱情况。就我个人而言,当我开始使用现实世界的数据时,我作为一名执业医生的技能就开始蓬勃发展。因此,尽管我不会阻止您使用UCI之类的东西作为垫脚石或测试,但请注意奖金!
—
Patrick Caldon
您应该指定正在执行的机器学习类型。二进制分类数据集与函数逼近(回归)数据集不同。
—
道格拉斯·扎里