有哪些好的数据集可以说明统计分析的特定方面?


16

我意识到这是主观的,但是我认为谈论我们喜欢的数据集以及我们认为使它们变得有趣的内容会很好。那里有大量的数据,以及所有API(例如Datamob)和经典数据集(例如R data)的作用,我认为这可能会有一些非常有趣的响应。

例如,我一直喜欢“波士顿住房”数据集(尽管有不幸的含义)和“ mtcars”这样的数据集,因为它们具有多功能性。从教学的角度来看,可以证明使用它们的各种统计技术的优点。Anderson / Fisher的虹膜数据集将在我的心中永远占有一席之地。

有什么想法吗?


2
一个用于我的论文,因为如果我对它进行正确的分析,它将获得博士学位>。>
Fomite 2012年

3
欢迎使用交叉验证!它被设计为问答站点,用于回答具有实际答案的问题,而不是讨论论坛。因此,我认为这不是我们要在此站点上提出的问题类型。请参阅常见问题解答
Michael McGowan

4
我知道它是为问答设计的,但是会出现诸如“您最喜欢的统计卡通是什么?”之类的问题。被高度投票,我认为这绝对不是不恰当的。尤其是在教学法上,如果有人试图学习数据分析和探索性技术,则可能需要获得一些公共数据集的反馈,这些反馈数据提供了丰富的结构并且背后有大量的历史和研究。
2012年

4
我倾向于让社区决定是否必须关闭(不具有建设性),尽管我会补充说,透彻而有争议的答复很可能会为将来对数据分析特定方面的问题提供支持。同时,我将其转换为CW,因为显然没有最佳答案。
chl 2012年

2
这个问题及其答案对我非常有用。请不要删除。
dsign 2012年

Answers:


12

低出生体重研究

这是Hosmer和Lemeshow的“ 应用逻辑回归”教科书中的数据集之一(2000年,Wiley,第二版)。这项前瞻性研究的目的是确定与出生低体重婴儿(体重小于2500克)相关的危险因素。收集了189名妇女的数据,其中59名低体重婴儿和130名正常体重婴儿。被认为很重要的四个变量是年龄,受试者最后一次月经期的体重,种族和怀孕前三个月的医生就诊次数。

它在R中可用,也可以data(birthwt, package="MASS")在Stata中使用webuse lbw。此处显示一个文本版本:lowbwt.datdescription)。值得注意的是,此数据集有多个版本,因为它已扩展到一个案例对照研究(1-1或1-3,与年龄相匹配),如ALR第7章中的Hosmer和Lemeshow所示。

出于以下原因,我曾经根据此数据集讲授入门课程:

  • 从历史和流行病学的角度来看,这很有趣(数据收集于1986年)。不需要先有医学或统计学背景即可了解主要思想以及可以从该研究中提出哪些问题。
  • 混合类型(连续,序数,和公称)的几个变量可用,这是它对易于存在的碱性协会测试(t检验,ANOVA, -test用于两路表,比值比,循证医学和Armitage趋势检验等)。此外,出生体重可以作为一种连续的度量以及一个二进制指标(大于或等于2.5千克):我们可以开始建立简单的线性模型,然后进行多元回归(从先前的探索性分析中选择感兴趣的预测因子),然后切换到GLM(逻辑回归),可能会讨论临界值的选择。χ2
  • 它允许讨论不同的建模观点(解释性或预测性方法)以及开发模型时的抽样方案的含义(分层/匹配的案例)。

可以强调的其他要点,取决于受众和统计软件或一般统计信息的专业水平。

  1. 对于R中可用的数据集,分类预测变量被评分为整数(例如,对于母亲的种族,我们有'1'=白色,'2'=黑色,'3'=其他),尽管某些预测变量的自然排序(例如,以前的早产次数或就诊次数)或使用显式标签(对于二进制变量,最好使用“是” /“否”而不是1/0,即使这样做没有问题)不能更改设计矩阵中的任何内容!)根本不存在。这样,很容易讨论通过忽略数据分析中的级别或度量单位可能引起的问题。

  2. 当进行一些探索性分析并讨论哪种图形显示适合总结单变量,双变量或三变量关系时,混合类型的变量很有趣。同样,产生漂亮的汇总表,更一般地报告,是该数据集的另一个有趣方面(但是Hmisc::summary.formula在R下,此命令使它变得如此简单)。

  3. Hosmer和Lemeshow报告说,对实际数据进行了修改以保护主体的机密性(第25页)。讨论数据机密性问题可能很有趣,就像在我们较早的Journal Club中所做的那样,但请参阅其笔录。(我必须承认,我从来没有对此做过多详细说明。)

  4. 容易引入一些缺失值或错误值(这是统计学家在现实生活中常见的问题),从而导致讨论(a)通过代码本(Hmisc::describe或Stata的codebook)或探索性图形(始终首先绘制数据!)对其进行检测。 ,以及(b)可能的补救措施(数据插补,按列表删除或关联的成对度量,等等)。


+1感谢您提供示例性答案,表明该主题可能有用,并提供了其他答复可以(并且应该)针对的阐述标准。
ub

这真是太棒了,而且正是我问这个问题所要寻找的东西。感谢您宝贵的见解。
DA

5

当然,Anscombe 4数据集非常适合教学-它们看起来非常不同,但具有相同的简单统计属性。

我还建议使用KDD Cup数据集http://www.kdd.org/kddcup/, 因为它们已经被很好地研究并且有很多解决方案,因此学生可以比较他们的结果并查看排名。

在我的数据挖掘课程中,我提供了微阵列数据集竞赛,教授可以使用该竞赛 http://www.kdnuggets.com/data_mining_course/


对于以与Anscombe四重奏类似的方式设计用于教学目的的其他数据集,请参见此问题
银鱼


3

Harrell在“回归建模策略”中使用的Titanic数据集。在解释逻辑回归,使用性别,阶级和年龄来解释生存率时,我使用了他的分析的简化版本。

Gerry Quinn和Mick Keough在“生物学家的实验设计和数据分析”中讨论的Loyn数据集包含一些不错的问题,需要对多元线性回归进行转换。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.