查找免费可用的数据样本


98

我一直在研究一种用于分析和解析数据集的新方法,以识别和隔离总体中的子组,而无需预知任何子组的特征。尽管该方法对于人工数据样本(即专门为识别和隔离总体子集而创建的数据集)足够有效,但我想尝试使用实时数据对其进行测试。

我正在寻找的是免费的(即非机密,非专有的)数据源。优选地,包含双峰或多峰分布或明显由多个子集组成的子集不能通过传统方式轻易地拉开。我将在哪里找到此类信息?



4
您可能会喜欢getthedata.org一个专门查找数据集的问答网站
Jeromy Anglim 2011年

Answers:



46


17

世界银行提供了大量有趣的数据,并且最近一直非常积极地为其开发漂亮的 API

另外,通勤项目还有一个有趣的列表。

对于美国健康相关数据,健康指标仓库负责人

Daniel Lemire的博客指出了一些有趣的示例(主要针对数据库研究而设计),包括1880年加拿大人口普查天气云报告

至于今天(2012年3 4日),也可以下载美国1940年人口普查记录


2
世界银行利用Stata和R.
Fr.



10

卡内基梅隆大学的数据和故事库或DASL是一个不错的地方,它包含的数据文件“说明了基本统计方法的使用...一个很好的例子可以使特定统计方法的学习生动而相关。旨在帮助教师定位和识别用于教学的数据文件。我们希望DASL也可以用作统计文献中数据集的档案。”


9

启动R并键入data()。这将显示搜索路径中的所有数据集。附加软件包中提供了许多其他数据集。例如,AER程序包中有一些有趣的现实世界社会科学数据集。




5

Stack Exchange网络现在有一个新站点,即开放数据(2015年3月5日为beta),专用于数据。它描述为:

开放数据栈交换是一个对开放数据感兴趣的开发人员和研究人员的问答网站。它是由您构建和运行的,是Q&A站点的Stack Exchange网络的一部分。在您的帮助下,我们将共同努力,为有关开放数据的每个问题建立详细的答案库。

“开放数据”是指“每个人都可以自由使用并重新发布的数据集,不受版权,专利或其他控制机制的限制”(维基百科)。但是,该站点似乎可以接受封闭数据集的请求








2

在寻找适合我需要的数据集时,我偶然发现了与该讨论相关的两个站点。

Datacite.org将自己描述为...

我们是一个国际组织,旨在:

  • 建立更容易的研究数据访问
  • 增加对研究数据作为学术记录中合法贡献的接受度,并
  • 支持数据存档,以允许验证结果并将其重新用于将来的研究。

DataBib.org将自己描述为...

Databib是一种工具,可帮助人们识别和定位研究数据的在线存储库。用户和书目作者创建并整理记录,以描述用户可以搜索的数据存储库。

认为值得将其添加到此处的其他列表中。

现在在其链接中找到适合我需求的东西!


2

我强烈建议您查看quandl.com。这是数据程序员的梦想。它提供了一个非常简单的API,可以访问超过1000万个不同数据位置中的任何一个。您正在寻找双峰或多元数据,因此,我建议您检查一下各种人口数据集,例如,此世界人口图包含总和的子部分国家和地区。


1
一些quandl数据是免费的,一些“ Premium”即成本$$。我的API梦想还包括时间序列的nrow,ncol和在线情节(我想要一匹小马)。
丹尼斯






By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.