在“IRIS”的数据集是很熟悉这里大多数人-这是规范的测试数据集和一个去到例如数据集,一切从数据可视化机器学习。例如,这个问题中的每个人最终都将其用于讨论按处理分开的散点图。
是什么使Iris数据集如此有用?只是它首先在那儿?如果有人试图创建有用的示例/测试数据集,他们可以从中学到什么?
在“IRIS”的数据集是很熟悉这里大多数人-这是规范的测试数据集和一个去到例如数据集,一切从数据可视化机器学习。例如,这个问题中的每个人最终都将其用于讨论按处理分开的散点图。
是什么使Iris数据集如此有用?只是它首先在那儿?如果有人试图创建有用的示例/测试数据集,他们可以从中学到什么?
Answers:
该虹膜数据集当之无愧各地广泛统计科学,特别是用于说明统计图形,多元统计分析和机器学习的各种问题。
它包含150个观察值,虽然很小,但并不无关紧要。
通过测量其花瓣和萼片来区分三种鸢尾花的任务很简单,但具有挑战性。
数据是真实数据,但显然质量很高。原则上和在实践中,测试数据集可以是合成的,可能对于提出一个观点是必要的或有用的。尽管如此,很少有人反对真实数据。
数据由著名的英国统计学家罗纳德·费舍尔(Ronald Fisher)在1936年使用。(后来他被封为爵士,并成为罗纳德爵士。)至少有些老师喜欢数据集的想法,该数据集与该领域内一位知名人士具有联系。这些数据最初是由具有统计学头脑的植物学家埃德加·安德森(Edgar S. Anderson)发布的,但是更早的起源并不能减少这种关联。
使用一些著名的数据集是我们传承的传统之一,例如,告诉每一代新生,学生都在吉尼斯工作,或者许多著名的统计学家互相淘汰。这听起来像惯性,但在比较旧方法和新方法以及评估任何方法时,通常认为在已知数据集上进行尝试会有所帮助,从而保持我们评估方法的连续性。
最后但并非最不重要的一点是,虹膜数据集可以与相关花朵的图片愉快地结合在一起,例如来自数据集上有用的Wikipedia条目。
注意。认真引用相关植物,以确保生物学正确性。鸢尾(Iris setosa),杂色鸢尾(Iris versicolor)和维吉尼亚鸢尾(Iris virginica)是3个物种(在某些统计数据中不是品种)。如此处所示,其二项式应以斜体显示;和虹膜作为属名和其他的名字,指示特定的种类,应与上部和下部壳体分别开始。
数据集足够大且有趣,足以使其变得平凡,但又足够小,足以“放入您的口袋”,并且不会减慢对其的实验。
我认为一个关键方面是,它还教授过度拟合。没有足够的列来给出完美的分数:当我们查看散点图时,我们会立即看到这一点,它们相互重叠并相互碰撞。因此,任何获得满分的机器学习方法都可以视为可疑。