我意识到这是主观的,但是我认为谈论我们喜欢的数据集以及我们认为使它们变得有趣的内容会很好。那里有大量的数据,以及所有API(例如Datamob)和经典数据集(例如R data)的作用,我认为这可能会有一些非常有趣的响应。
例如,我一直喜欢“波士顿住房”数据集(尽管有不幸的含义)和“ mtcars”这样的数据集,因为它们具有多功能性。从教学的角度来看,可以证明使用它们的各种统计技术的优点。Anderson / Fisher的虹膜数据集将在我的心中永远占有一席之地。
有什么想法吗?
我意识到这是主观的,但是我认为谈论我们喜欢的数据集以及我们认为使它们变得有趣的内容会很好。那里有大量的数据,以及所有API(例如Datamob)和经典数据集(例如R data)的作用,我认为这可能会有一些非常有趣的响应。
例如,我一直喜欢“波士顿住房”数据集(尽管有不幸的含义)和“ mtcars”这样的数据集,因为它们具有多功能性。从教学的角度来看,可以证明使用它们的各种统计技术的优点。Anderson / Fisher的虹膜数据集将在我的心中永远占有一席之地。
有什么想法吗?
Answers:
这是Hosmer和Lemeshow的“ 应用逻辑回归”教科书中的数据集之一(2000年,Wiley,第二版)。这项前瞻性研究的目的是确定与出生低体重婴儿(体重小于2500克)相关的危险因素。收集了189名妇女的数据,其中59名低体重婴儿和130名正常体重婴儿。被认为很重要的四个变量是年龄,受试者最后一次月经期的体重,种族和怀孕前三个月的医生就诊次数。
它在R中可用,也可以data(birthwt, package="MASS")
在Stata中使用webuse lbw
。此处显示一个文本版本:lowbwt.dat(description)。值得注意的是,此数据集有多个版本,因为它已扩展到一个案例对照研究(1-1或1-3,与年龄相匹配),如ALR第7章中的Hosmer和Lemeshow所示。
出于以下原因,我曾经根据此数据集讲授入门课程:
可以强调的其他要点,取决于受众和统计软件或一般统计信息的专业水平。
对于R中可用的数据集,分类预测变量被评分为整数(例如,对于母亲的种族,我们有'1'=白色,'2'=黑色,'3'=其他),尽管某些预测变量的自然排序(例如,以前的早产次数或就诊次数)或使用显式标签(对于二进制变量,最好使用“是” /“否”而不是1/0,即使这样做没有问题)不能更改设计矩阵中的任何内容!)根本不存在。这样,很容易讨论通过忽略数据分析中的级别或度量单位可能引起的问题。
当进行一些探索性分析并讨论哪种图形显示适合总结单变量,双变量或三变量关系时,混合类型的变量很有趣。同样,产生漂亮的汇总表,更一般地报告,是该数据集的另一个有趣方面(但是Hmisc::summary.formula
在R下,此命令使它变得如此简单)。
Hosmer和Lemeshow报告说,对实际数据进行了修改以保护主体的机密性(第25页)。讨论数据机密性问题可能很有趣,就像在我们较早的Journal Club中所做的那样,但请参阅其笔录。(我必须承认,我从来没有对此做过多详细说明。)
容易引入一些缺失值或错误值(这是统计学家在现实生活中常见的问题),从而导致讨论(a)通过代码本(Hmisc::describe
或Stata的codebook
)或探索性图形(始终首先绘制数据!)对其进行检测。 ,以及(b)可能的补救措施(数据插补,按列表删除或关联的成对度量,等等)。
当然,Anscombe 4数据集非常适合教学-它们看起来非常不同,但具有相同的简单统计属性。
我还建议使用KDD Cup数据集http://www.kdd.org/kddcup/, 因为它们已经被很好地研究并且有很多解决方案,因此学生可以比较他们的结果并查看排名。
在我的数据挖掘课程中,我提供了微阵列数据集竞赛,教授可以使用该竞赛 http://www.kdnuggets.com/data_mining_course/