统计+计算机科学=数据科学?[关闭]


10

我想成为一名数据科学家。我研究了应用统计(精算科学),所以我有很好的统计背景(回归,随机过程,时间序列,仅举几例)。但是现在,我将攻读智能系统领域的计算机科学硕士学位。

这是我的学习计划:

  • 机器学习
  • 先进的机器学习
  • 数据挖掘
  • 模糊逻辑
  • 推荐系统
  • 分布式数据系统
  • 云计算
  • 知识发现
  • 商业情报
  • 信息检索
  • 文字挖掘

最后,以我所有的统计和计算机科学知识,我可以称自己为数据科学家吗?还是我错了?

感谢您的回答。



这个问题似乎离题,因为它是关于职业建议的。事实证明,职业咨询会导致以观点为导向的广泛问题,有时甚至是极为局限的问题,其中大多数都不会产生有用的论述。如果您不同意此意见,请在Data Science Meta上提出问题。
asheeshr 2014年

简而言之,不。数据+科学方法=数据科学:-)。其他所有事情只是到达那里的一种方法
I_Play_With_Data

Answers:


1

我认为您在成为专家 数据科学家的正确道路上。最近,我在数据科学StackExchange上回答了相关问题:https ://datascience.stackexchange.com/a/742/2452 (请注意我在此处提到的定义,因为它本质上是在回答您的问题,以及方面的练习 软件工程应用知识解决现实世界的问题)。我希望您会发现所有有用的信息。祝您事业顺利!


9

好吧,这取决于您希望获得哪种“数据科学”。对于基本分析和报告统计数据肯定会有所帮助,但是对于机器学习和人工智能,您将需要更多技能

  • 概率论 -您必须具有纯概率的扎实背景,以便您可以将任何问题(无论以前是否见过)分解为概率原理。统计信息对于已经解决的问题有很大帮助,但是新问题和未解决的问题需要对概率有深入的了解,以便您可以设计适当的技术。

  • 信息论 -这个(相对于统计)是一个新领域(尽管仍然有几十年的历史),最重要的著作是香农(Shannon),但更重要且经常被人们忽略的文献是霍布森(Hobson)的著作,证明了库尔贝克-莱布勒发散是唯一能真正体现“信息量度”概念的数学定义。现在,人为智能的基础是能够量化信息。建议阅读“统计力学的概念”-Arthur Hobson(非常昂贵的书,仅在大学图书馆有售)。

  • 复杂性理论-许多数据科学家在没有坚实的复杂性理论背景的情况下面临的一个大问题是他们的算法无法扩展,或者仅花费极长时间才能运行大数据。以PCA为例,许多人最喜欢回答面试问题“如何减少数据集中特征的数量”,但是即使告诉候选人“数据集确实非常大”,他们仍然会提出各种形式的PCA为O(n ^ 3)。如果您想脱颖而出,则希望自己能够解决每个问题,而不是在大数据这么时髦之前就扔掉很久以前设计的教科书解决方案。为此,您不仅需要在理论上,而且在实践上都需要花多长时间运行-因此,如何使用计算机集群来分发算法,

  • 沟通技巧 -数据科学的很大一部分是了解业务。无论是发明以数据科学为驱动力的产品,还是提供以数据科学为驱动力的业务洞察力,与项目和产品经理,技术团队以及您的数据科学家保持良好的沟通都是非常重要的。用很棒的人工智能解决方案说,您可能有一个很棒的主意,但是,如果您不能有效地(a)交流为什么可以赚钱的原因,(b)说服您的同事行之有效,以及(c)向技术人员说明您的需求他们的帮助来构建它,然后它就不会完成。


6

数据科学家(对我而言)是一个大伞。我认为数据科学家是一个可以熟练使用数据挖掘,机器学习,模式分类和统计领域的技术的人。

但是,这些术语交织在一起:机器学习与模式分类捆绑在一起,并且在数据中查找模式时数据挖掘也会重叠。并且所有技术都有其潜在的统计原理。我总是将其描绘为具有巨大交集的维恩图。

计算机科学也与所有这些领域有关。我想说,您需要“数据科学”技术来进行计算机科学研究,但是“数据科学”中不一定暗含计算机科学知识。但是,编程技能(我认为编程和计算机科学是不同的专业,编程是​​解决问题的更多工具),对于处理数据和进行数据分析也很重要。

您有一个非常不错的学习计划,这很有意义。但是我不确定您是否“想”称自己为“数据科学家”,我给人的印象是“数据科学家”是一个模棱两可的术语,可能意味着所有或什至没有。我想传达的是,您最终将变得比“仅仅是”一位数据科学家更“专业化”。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.