Questions tagged «open-source»

30
公开可用的数据集
数据科学中的常见问题之一是以某种方式清洗(半结构)的格式从各种来源收集数据,并结合各种来源的指标以进行更高级别的分析。查看其他人的努力,尤其是本网站上的其他问题,看来该领域的许多人正在做一些重复的工作。例如,分析推文,facebook帖子,Wikipedia文章等是许多大数据问题的一部分。 其中一些数据集可以使用提供商站点提供的公共API进行访问,但是通常,这些API中缺少一些有价值的信息或指标,每个人都必须一次又一次地进行相同的分析。例如,尽管群集用户可能取决于不同的用例和功能选择,但是对Twitter / Facebook用户进行基本群集在许多大数据应用程序中可能很有用,API既未提供该功能,也未在独立数据集中公开提供此功能。 是否有任何索引或公共可用的数据集托管站点包含有价值的数据集,可用于解决其他大数据问题?我的意思是像GitHub(或一组站点/公共数据集或至少一个完整的清单)这样的数据科学。如果没有,那么没有这样的数据科学平台的原因是什么?数据的商业价值,需要经常更新数据集吗?我们是否可以没有一个开放源代码的模型来共享为数据科学家设计的数据集?

7
公开可用的社交网络数据集/ API
作为我们的大量公共可用数据集的扩展,我想知道是否有任何公共可用社交网络数据集/爬网API列表。如果在链接到数据集/ API的同时添加可用数据的特征,那将非常好。此类信息应为但不限于: 社交网络的名称; 它提供什么样的用户信息(帖子,个人资料,友谊网络等); 是否允许通过API对其内容进行爬网(速率:10 / min,1k / month,...); 是否仅提供整个数据集的快照。 非常欢迎您提出任何建议和其他特征。

5
开源数据科学项目做出贡献
对开源项目的贡献通常是一种很好的方式,可以让新手有所实践,并为经验丰富的数据科学家和分析人员尝试一个新领域。 您贡献哪些项目?请在Github上提供一些介绍+链接。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.