我是机器学习的新手,正在寻找一些可以比较和对比不同机器学习算法(决策树,Boosting,SVM和神经网络)之间差异的数据集。
在哪里可以找到这样的数据集?考虑数据集时我应该寻找什么?
如果您可以指向一些好的数据集,并告诉我是什么使它们成为一个好的数据集,那将是很好的选择?
我是机器学习的新手,正在寻找一些可以比较和对比不同机器学习算法(决策树,Boosting,SVM和神经网络)之间差异的数据集。
在哪里可以找到这样的数据集?考虑数据集时我应该寻找什么?
如果您可以指向一些好的数据集,并告诉我是什么使它们成为一个好的数据集,那将是很好的选择?
Answers:
首先,我建议从软件随附的示例数据开始。大多数软件发行版中都包含示例数据,您可以使用这些示例数据来熟悉算法,而无需处理数据类型并将数据折算为算法的正确格式。即使您是从头开始构建算法,也可以从类似实现的示例开始并比较性能。
其次,我建议您尝试使用合成数据集,以在知道数据是如何生成的以及信噪比时了解算法的性能。
在R中,您可以使用以下命令列出当前安装的软件包中的所有数据集:
data(package = installed.packages()[, 1])
R包mlbench具有真实的数据集,可以生成对于研究算法性能有用的综合数据集。
Python的scikit-learn具有示例数据,也可以生成合成/玩具数据集。
SAS具有可供下载的培训数据集,并且通过软件在以下位置安装了SPSS样本数据:C:\ Program Files \ IBM \ SPSS \ Statistics \ 22 \ Samples
最后,我将研究野生数据。我将比较实际数据集上不同算法和调整参数的性能。这通常需要做很多工作,因为您很少会找到带有可放入算法中的数据类型和结构的数据集。
对于野外数据,我建议: