作为示例/教学/测试数据集，“虹膜”数据集的哪些方面使其如此成功

在“IRIS”的数据集是很熟悉这里大多数人-这是规范的测试数据集和一个去到例如数据集，一切从数据可视化机器学习。例如，这个问题中的每个人最终都将其用于讨论按处理分开的散点图。

是什么使Iris数据集如此有用？只是它首先在那儿？如果有人试图创建有用的示例/测试数据集，他们可以从中学到什么？

dataset

— 方铁
source

小但不琐碎。简单但具有挑战性。真实数据。费舍尔的声誉，虽然不是他的数据。传统。惯性。连续性您可以找到花卉图片来拼写出来。

— Nick Cox

现在它像发条一样运转。

— Michael M

我想说@NickCox是正确的。

— 马克·克莱森

@NickCox想要扩展一下作为答案吗？

— 2013年

“ iris”数据集可用于判别分析，以及用于说明目的的无监督分类（基于模型或无模型的聚类）。这个问题值得参考。什么是好的数据集来说明统计分析的特定方面？

— chl 2013年

Answers:

该虹膜数据集当之无愧各地广泛统计科学，特别是用于说明统计图形，多元统计分析和机器学习的各种问题。

它包含150个观察值，虽然很小，但并不无关紧要。
通过测量其花瓣和萼片来区分三种鸢尾花的任务很简单，但具有挑战性。
数据是真实数据，但显然质量很高。原则上和在实践中，测试数据集可以是合成的，可能对于提出一个观点是必要的或有用的。尽管如此，很少有人反对真实数据。
数据由著名的英国统计学家罗纳德·费舍尔（Ronald Fisher）在1936年使用。（后来他被封为爵士，并成为罗纳德爵士。）至少有些老师喜欢数据集的想法，该数据集与该领域内一位知名人士具有联系。这些数据最初是由具有统计学头脑的植物学家埃德加·安德森（Edgar S. Anderson）发布的，但是更早的起源并不能减少这种关联。
使用一些著名的数据集是我们传承的传统之一，例如，告诉每一代新生，学生都在吉尼斯工作，或者许多著名的统计学家互相淘汰。这听起来像惯性，但在比较旧方法和新方法以及评估任何方法时，通常认为在已知数据集上进行尝试会有所帮助，从而保持我们评估方法的连续性。
最后但并非最不重要的一点是，虹膜数据集可以与相关花朵的图片愉快地结合在一起，例如来自数据集上有用的Wikipedia条目。

注意。认真引用相关植物，以确保生物学正确性。鸢尾（Iris setosa），杂色鸢尾（Iris versicolor）和维吉尼亚鸢尾（Iris virginica）是3个物种（在某些统计数据中不是品种）。如此处所示，其二项式应以斜体显示；和虹膜作为属名和其他的名字，指示特定的种类，应与上部和下部壳体分别开始。

— 尼克·考克斯
source

（+1）感谢您很好地将您的评论扩展为答案。

— 主教

如果可以为生物学正确性提供原则性的支持，我会再给+1。

— Fomite 2013年

数据集足够大且有趣，足以使其变得平凡，但又足够小，足以“放入您的口袋”，并且不会减慢对其的实验。

我认为一个关键方面是，它还教授过度拟合。没有足够的列来给出完美的分数：当我们查看散点图时，我们会立即看到这一点，它们相互重叠并相互碰撞。因此，任何获得满分的机器学习方法都可以视为可疑。

— 达伦·库克（Darren Cook）
source