公开可用的数据集


167

数据科学中的常见问题之一是以某种方式清洗(半结构)的格式从各种来源收集数据,并结合各种来源的指标以进行更高级别的分析。查看其他人的努力,尤其是本网站上的其他问题,看来该领域的许多人正在做一些重复的工作。例如,分析推文,facebook帖子,Wikipedia文章等是许多大数据问题的一部分。

其中一些数据集可以使用提供商站点提供的公共API进行访问,但是通常,这些API中缺少一些有价值的信息或指标,每个人都必须一次又一次地进行相同的分析。例如,尽管群集用户可能取决于不同的用例和功能选择,但是对Twitter / Facebook用户进行基本群集在许多大数据应用程序中可能很有用,API既未提供该功能,也未在独立数据集中公开提供此功能。

是否有任何索引或公共可用的数据集托管站点包含有价值的数据集,可用于解决其他大数据问题?我的意思是像GitHub(或一组站点/公共数据集或至少一个完整的清单)这样的数据科学。如果没有,那么没有这样的数据科学平台的原因是什么?数据的商业价值,需要经常更新数据集吗?我们是否可以没有一个开放源代码的模型来共享为数据科学家设计的数据集?


18
这个问题在专用的opendata.SE上可能更合适。就是说,我为dat交叉了手指,它渴望成为“数据的Git”。
ojdo

2
@ojdo谢谢,我以前从未听说过opendata.SE,我也在那里发现了一个有趣(非常相似)的问题。
阿米尔·阿里·阿克巴里


我没有找到用于典型商业智能应用程序的任何良好的免费综合数据集。在微软的Contoso BI演示数据集零售行业从微软官方下载中心下载适用一些微软产品(见与AndyGett在SharePoint和其它商业软件),但我看不到任何普通的SQL或它的CSV转储,也没有任何许可证信息。
nealmcb 2015年

1
您是否加入了开放数据栈交换?opendata.stackexchange.com
sss4r

Answers:


87

实际上,有一个非常合理的公开可用数据集列表,由不同的企业/来源提供支持。

其中一些如下:

现在,对您的问题有两个考虑。第一个,关于数据库共享策略。根据个人经验,有些数据库无法公开使用,包括涉及隐私限制(如某些社交网络信息)或有关政府信息(如卫生系统数据库)。

另一点涉及数据集的使用/应用。尽管可以对某些基础进行重新处理以适合应用程序的需求,但按目的对数据集进行一些很好的组织还是很不错的。该分类应包括社交图谱分析,集挖掘,分类,和许多其他研究领域有可能。


64

37

有许多公开可用的数据集,data.gov是许多人经常忽略的数据集。如前所述,Freebase很棒,@ Rubens发布的所有示例也很棒




25

特别是对于时间序列数据,Quantl是一个很好的资源-(主要是干净时间序列的)易于浏览的目录。

他们最酷的功能之一是开放数据的股票价格,即可以编辑的Wiki样式的财务数据,并且不受许可的约束。


20

谜题是公共可用数据集的存储库。它的免费计划提供公共数据搜索,每月有1万个API调用。并非所有公共数据库都被列出,但是对于常见情况而言,该列表已足够。

我将其用于学术研究,从而节省了很多时间。


另一个有趣的数据来源是@unitedstates项目,其中包含有关美国(国会议员,地理形状等)的数据和工具。


18

我想指出The Open Data Census。它是开放知识基金会的一项举措,它基于世界各地的开放数据倡导者和专家的贡献。

开放数据普查的价值是开放的,由社区驱动的,并且是系统的工作,目的是在全球范围内(在某些情况下,例如在美国)在国家/地区,在全球范围内收集和更新开放数据集的数据库。

此外,它还提供了一个机会,可以在选定的感兴趣区域中比较不同的国家和城市。


18

英国日报在其网站上还提供了《卫报》提供的另一种资源。由Guardian Datablog发布的数据集都是托管的。与英超足球俱乐部帐户有关的数据集,英国的通货膨胀和GDP详细信息,格莱美奖赏数据等。这些数据集可在以下位置获得:

一些更多的资源。一些数据集采用R格式,或者存在R逗号以直接将数据导入R。


17

自定义Google搜索

您可以对数据集使用“自定义Google搜索”:

Google自定义搜索:数据集

它包括230个数据集源和元数据源,包括本问题中提到的所有数据源。请在搜索行中添加“ -.gov”或“ -site.com”,以便从结果中排除.gov和任何其他网站。其他Google搜索运营商也可以。

如果您有想法要添加哪些网站,请立即与我联系。

数据表

以下服务对超过1,000,000个公共数据集进行了分类:

IOGDS:国际公开政府数据集搜索


您提供的自定义搜索链接的参数是什么?是否搜索网站,关键字等列表?
阿米尔·阿里·阿克巴里

@AmirAliAkbari它搜索诸如Data.gov,Quantl和其他主要数据仓库之类的资源。
安东·塔拉森科2014年

16

答案较晚,但下面列出了100多个有趣的数据集

该博客文章有趣且易于阅读(我没有从属关系)。值得一遍,并从顶部刮一些:

  • 自1984年以来被处决的德克萨斯所有囚犯的遗言

  • 10,000张带批注的猫图片

  • 220万场国际象棋比赛






14

我很惊讶一个人没有提到这一点,因为它似乎很明显:http : //www.kaggle.com一直都有新的而且非常有趣的数据集。信息被视为一种资产,因此公司通常不想发布这些数据(加上隐私问题)。Kaggle为您提供数据,希望他们可以交换数据来解决业务问题。


14

1
您能否为我们提供有关这两个数据集/链接的一些信息?实际上,这将减轻那些正在寻找特定类型的数据集的人的负担。查看其他帖子,看看您的参考文献缺少哪些类型的信息。
鲁本斯

11

正如您提到的,API是最困难的部分,而不是数据。 Quandl似乎通过在一个简单的RESTful API下提供超过1000万个公开可用的数据集来解决此问题。如果您不适合编程,则可以使用免费工具轻松地将数据加载到Excel中。此外,如果你喜欢编程,有几个本地库R,Python和Java的多





9

我未列出的另一个数据源是GDELT项目。从站点:

GDELT专案会以100多种语言监察来自每个国家/地区几乎每个角落的全球广播,印刷和网络新闻,并每天识别驱动我们全球社会的人,地点,组织,数量,主题,来源和事件,创建一个免费的开放平台,在全世界范围内进行计算。



6

我为此创建了一个github存储库。数据集并不大,但只是用于实践和探索预测建模技术的最小示例,然后可以将其扩展到大型数据集。

机器学习问题圣经(MLPB)

关于此存储库,很酷/独特的地方是,每个问题都用[多类],[不平衡数据],[回归]等标签标记,从而可以轻松地查找某些类型的问题/数据集。



6

除了所有这些数据集,如果您对与印度有关的数据感兴趣。印度政府的官方网站是

它提供了来自印度政府不同部门的数据集,可以很好地用于大数据分析和机器学习。



4

只需在R中加载MASS包,就可以访问多个数据帧或数据集。

install.packages(“ MASS”)require(“ MASS”)


3

来自https://www.jc-bingo.com/about的 3个数据集

  • visitor-interests.csv根据1周的网络访问日志汇总的总访问者兴趣。包括访问者IP地址,用户代理字符串,访问者国家/地区,访问的页面语言和主题。19,926条记录,2.9 Mb。
  • user-agents.csv按受欢迎程度排序的实际访客用户代理。4,826条记录,716 Kb。
  • bots.csv从Web访问日志中提取的机器人IP地址和用户代理字符串。1,293条记录,122 Kb。

3

显然,存在大量的公共数据库。

尚未提及的是粮农组织(联合国粮食及农业组织),可通过以下网址获得:

http://www.fao.org/faostat/

它包含有关世界各国粮食生产的数据。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.