作为示例/教学/测试数据集,“虹膜”数据集的哪些方面使其如此成功


28

“IRIS”的数据集是很熟悉这里大多数人-这是规范的测试数据集和一个去到例如数据集,一切从数据可视化机器学习。例如,这个问题中的每个人最终都将其用于讨论按处理分开的散点图。

是什么使Iris数据集如此有用?只是它首先在那儿?如果有人试图创建有用的示例/测试数据集,他们可以从中学到什么?


13
小但不琐碎。简单但具有挑战性。真实数据。费舍尔的声誉,虽然不是他的数据。传统。惯性。连续性 您可以找到花卉图片来拼写出来。
Nick Cox

现在它像发条一样运转。
Michael M

我想说@NickCox是正确的。
马克·克莱森

@NickCox想要扩展一下作为答案吗?
2013年

6
“ iris”数据集可用于判别分析,以及用于说明目的的无监督分类(基于模型或无模型的聚类)。这个问题值得参考。什么是好的数据集来说明统计分析的特定方面?
chl 2013年

Answers:


40

虹膜数据集当之无愧各地广泛统计科学,特别是用于说明统计图形,多元统计分析和机器学习的各种问题。

  • 它包含150个观察值,虽然很小,但并不无关紧要。

  • 通过测量其花瓣和萼片来区分三种鸢尾花的任务很简单,但具有挑战性。

  • 数据是真实数据,但显然质量很高。原则上和在实践中,测试数据集可以是合成的,可能对于提出一个观点是必要的或有用的。尽管如此,很少有人反对真实数据。

  • 数据由著名的英国统计学家罗纳德·费舍尔(Ronald Fisher)在1936年使用。(后来他被封为爵士,并成为罗纳德爵士。)至少有些老师喜欢数据集的想法,该数据集与该领域内一位知名人士具有联系。这些数据最初是由具有统计学头脑的植物学家埃德加·安德森(Edgar S. Anderson)发布的,但是更早的起源并不能减少这种关联。

  • 使用一些著名的数据集是我们传承的传统之一,例如,告诉每一代新生,学生都在吉尼斯工作,或者许多著名的统计学家互相淘汰。这听起来像惯性,但在比较旧方法和新方法以及评估任何方法时,通常认为在已知数据集上进行尝试会有所帮助,从而保持我们评估方法的连续性。

  • 最后但并非最不重要的一点是,虹膜数据集可以与相关花朵的图片愉快地结合在一起,例如来自数据集上有用的Wikipedia条目

注意。认真引用相关植物,以确保生物学正确性。鸢尾(Iris setosa)杂色鸢尾Iris versicolor)维吉尼亚鸢尾Iris virginica)是3个物种(在某些统计数据中不是品种)。如此处所示,其二项式应以斜体显示;和虹膜作为属名和其他的名字,指示特定的种类,应与上部和下部壳体分别开始。


3
(+1)感谢您很好地将您的评论扩展为答案。
主教

5
如果可以为生物学正确性提供原则性的支持,我会再给+1。
Fomite 2013年

6

数据集足够大且有趣,足以使其变得平凡,但又足够小,足以“放入您的口袋”,并且不会减慢对其的实验。

我认为一个关键方面是,它还教授过度拟合。没有足够的列来给出完美的分数:当我们查看散点图时,我们会立即看到这一点,它们相互重叠并相互碰撞。因此,任何获得满分的机器学习方法都可以视为可疑。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.