我一直在研究一种用于分析和解析数据集的新方法,以识别和隔离总体中的子组,而无需预知任何子组的特征。尽管该方法对于人工数据样本(即专门为识别和隔离总体子集而创建的数据集)足够有效,但我想尝试使用实时数据对其进行测试。
我正在寻找的是免费的(即非机密,非专有的)数据源。优选地,包含双峰或多峰分布或明显由多个子集组成的子集不能通过传统方式轻易地拉开。我将在哪里找到此类信息?
我一直在研究一种用于分析和解析数据集的新方法,以识别和隔离总体中的子组,而无需预知任何子组的特征。尽管该方法对于人工数据样本(即专门为识别和隔离总体子集而创建的数据集)足够有效,但我想尝试使用实时数据对其进行测试。
我正在寻找的是免费的(即非机密,非专有的)数据源。优选地,包含双峰或多峰分布或明显由多个子集组成的子集不能通过传统方式轻易地拉开。我将在哪里找到此类信息?
Answers:
以下列表包含您可能感兴趣的许多数据集:
卡内基梅隆大学的数据和故事库或DASL是一个不错的地方,它包含的数据文件“说明了基本统计方法的使用...一个很好的例子可以使特定统计方法的学习生动而相关。旨在帮助教师定位和识别用于教学的数据文件。我们希望DASL也可以用作统计文献中数据集的档案。”
http://www.reddit.com/r/datasets 以及http://www.reddit.com/r/opendata都包含一个不断增长的指向各种数据集的指针列表。
Stack Exchange网络现在有一个新站点,即开放数据(2015年3月5日为beta),专用于数据。它描述为:
开放数据栈交换是一个对开放数据感兴趣的开发人员和研究人员的问答网站。它是由您构建和运行的,是Q&A站点的Stack Exchange网络的一部分。在您的帮助下,我们将共同努力,为有关开放数据的每个问题建立详细的答案库。
“开放数据”是指“每个人都可以自由使用并重新发布的数据集,不受版权,专利或其他控制机制的限制”(维基百科)。但是,该站点似乎可以接受封闭数据集的请求。
在列表中添加一对:
关于上市公司的许多深入的财务数据,可以追溯到几十年前:http : //www.mergent.com/servius
关于美国16+百万家企业的丰富信息:http://compass.webservius.com
两者均可通过REST API获得,并有免费的试用计划。
这可能是您将找到的最完整的列表:Web上的某些数据集
Peter Skomoroch在http://www.datawrangling.com/some-datasets-available-on-the-web上维护数据集列表。提供了许多与列出数据集的位置有关的链接。
本书的数据集A handbook of small data sets
可
在此处获得。
在寻找适合我需要的数据集时,我偶然发现了与该讨论相关的两个站点。
Datacite.org将自己描述为...
我们是一个国际组织,旨在:
- 建立更容易的研究数据访问
- 增加对研究数据作为学术记录中合法贡献的接受度,并
- 支持数据存档,以允许验证结果并将其重新用于将来的研究。
DataBib.org将自己描述为...
Databib是一种工具,可帮助人们识别和定位研究数据的在线存储库。用户和书目作者创建并整理记录,以描述用户可以搜索的数据存储库。
认为值得将其添加到此处的其他列表中。
现在在其链接中找到适合我需求的东西!
我强烈建议您查看quandl.com。这是数据程序员的梦想。它提供了一个非常简单的API,可以访问超过1000万个不同数据位置中的任何一个。您正在寻找双峰或多元数据,因此,我建议您检查一下各种人口数据集,例如,此世界人口图包含总和的子部分国家和地区。
随时间使用
可下载一个非常大的Excel电子表格,其中包含一段时间内所有在线活动的数据点以及用户人口统计信息。在下载或使用此电子表格之前,请阅读提示表(如下)。
http://www.ckan.net也有许多数据集。
http://www.biotorrents.net/browse.php也开始拥有大量的BIG数据集。
我要继续讨论一个老话题,因为我刚刚发现这个母亲矿床:
新加坡宣布开放数据倡议。退房data.gov.sg类似于美国data.gov。