Answers:
只需访问kaggle.com;它会让您长时间忙碌。对于开放数据,可以使用UC Irvine机器学习存储库。实际上,有一个整个Stackexchange网站致力于此目的;看这里。
在阳光基金会是一个致力于在开放,并鼓励政府数据的无党派分析的组织。
野外有大量可用于比较的分析,以及各种各样的主题。
它们提供了用于访问数据的工具和api,并帮助推动在data.gov之类的地方提供数据。
一个有趣的项目是Impact Explorer。您可以在此处获取源数据以及访问实时数据。
您可能还想看看我们更受欢迎的问题之一:
您是计算机科学的硕士吗?统计?
“数据科学”将成为您论文的中心吗?还是副题?
我假设您是统计学专业的,您希望将您的论文重点放在“数据科学”问题上。如果是这样,那么我将违背原则,建议您不应该从数据集或ML方法开始。相反,您应该寻找一个有趣的研究问题,该问题尚未得到很好的理解,或者机器学习方法尚未被证明是成功的,或者存在许多竞争性机器学习方法,但似乎没有哪一种比其他方法更好。
考虑以下数据源:斯坦福大型网络数据集。尽管您可以选择这些数据集之一,编写问题陈述,然后运行ML方法列表,但这种方法实际上并不能告诉您很多数据科学的意义,而我认为并不能导致一个非常好的硕士论文。
相反,您可以这样做:在特定类别下查找所有使用ML的研究论文,例如Collaboration Networks(aka共同作者)。当你阅读每篇文章,试图找出他们都能够与每个ML方法和他们没能地址来完成。尤其要寻找他们对“未来研究”的建议。
也许他们都使用相同的方法,但从未尝试过竞争ML方法。也许他们没有充分验证其结果,或者数据集很小,或者他们的研究问题和假设过于简单或局限。
最重要的是:尝试找出这一研究方向。他们为什么还要这样做呢?有什么重要意义?他们在哪里以及为什么遇到困难?