面向数据科学的数据集/统计学硕士研究问题


11

我想探索“数据科学”。这个词对我来说似乎有点模糊,但是我希望它要求:

  1. 机器学习(而不是传统的统计);
  2. 一个足够大的数据集,您必须在集群上运行分析。

具有一定编程背景的统计学家可以访问哪些好的数据集和问题,以用于探索数据科学领域?

为了尽可能缩小范围,理想情况下,我希望链接到开放的,使用良好的数据集和示例问题。

Answers:



5

阳光基金会是一个致力于在开放,并鼓励政府数据的无党派分析的组织。

野外有大量可用于比较的分析,以及各种各样的主题。

它们提供了用于访问数据的工具api,并帮助推动在data.gov之类的地方提供数据。

一个有趣的项目是Impact Explorer。您可以在此处获取源数据以及访问实时数据。

您可能还想看看我们更受欢迎的问题之一:

公开可用的数据集


5

您是计算机科学的硕士吗?统计?

“数据科学”将成为您论文的中心吗?还是副题?

我假设您是统计学专业的,您希望将您的论文重点放在“数据科学”问题上。如果是这样,那么我将违背原则,建议您不应该从数据集或ML方法开始。相反,您应该寻找一个有趣的研究问题,该问题尚未得到很好的理解,或者机器学习方法尚未被证明是成功的,或者存在许多竞争性机器学习方法,但似乎没有哪一种比其他方法更好。

考虑以下数据源:斯坦福大型网络数据集。尽管您可以选择这些数据集之一,编写问题陈述,然后运行ML方法列表,但这种方法实际上并不能告诉您很多数据科学的意义,而我认为并不能导致一个非常好的硕士论文。

相反,您可以这样做:在特定类别下查找所有使用ML的研究论文,例如Collaboration Networks(aka共同作者)。当你阅读每篇文章,试图找出他们能够与每个ML方法和他们没能地址来完成。尤其要寻找他们对“未来研究”的建议。

也许他们都使用相同的方法,但从未尝试过竞争ML方法。也许他们没有充分验证其结果,或者数据集很小,或者他们的研究问题和假设过于简单或局限。

最重要的是:尝试找出这一研究方向。他们为什么还要这样做呢?有什么重要意义?他们在哪里以及为什么遇到困难?


这是一个很好的主意。硕士是统计。
user3279453 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.