数据科学中的常见问题之一是以某种方式清洗(半结构)的格式从各种来源收集数据,并结合各种来源的指标以进行更高级别的分析。查看其他人的努力,尤其是本网站上的其他问题,看来该领域的许多人正在做一些重复的工作。例如,分析推文,facebook帖子,Wikipedia文章等是许多大数据问题的一部分。
其中一些数据集可以使用提供商站点提供的公共API进行访问,但是通常,这些API中缺少一些有价值的信息或指标,每个人都必须一次又一次地进行相同的分析。例如,尽管群集用户可能取决于不同的用例和功能选择,但是对Twitter / Facebook用户进行基本群集在许多大数据应用程序中可能很有用,API既未提供该功能,也未在独立数据集中公开提供此功能。
是否有任何索引或公共可用的数据集托管站点包含有价值的数据集,可用于解决其他大数据问题?我的意思是像GitHub(或一组站点/公共数据集或至少一个完整的清单)这样的数据科学。如果没有,那么没有这样的数据科学平台的原因是什么?数据的商业价值,需要经常更新数据集吗?我们是否可以没有一个开放源代码的模型来共享为数据科学家设计的数据集?