什么是数据科学家?


181

最近从我的统计学博士课程毕业后,我在过去的几个月里开始寻找统计学领域的工作。我考虑的几乎每家公司都有一份工作职位,职位名称为“ 数据科学家 ”。实际上,看到统计科学家统计学家职位的日子早已一去不复返了。曾经是一名数据科学家真的取代了统计学家吗?还是我想知道这些称谓的代名词?

好吧,大多数工作资格证明都像统计学家的头衔一样。大多数工作都希望获得统计学博士学位(),最需要的理解实验设计(),线性回归和方差分析(),广义线性模型()以及其他多元方法,例如PCA() ,以及统计计算环境(例如R或SAS )中的知识()。听起来数据科学家实际上只是统计学家的代号。

但是,每次面试时我都会问一个问题:“那么,您是否熟悉机器学习算法?” 通常,我发现自己不得不尝试回答有关大数据,高性能计算以及神经网络,CART,支持向量机,增强树,无监督模型等主题的问题。当然,我确信自己都是这些有关统计问题的内心深处,但是在每次面试结束时,我都忍不住对数据科学家的了解越来越少。

我是统计学家,但我是数据科学家吗?我致力于科学问题,所以我必须成为一名科学家!而且我还处理数据,所以我必须是一名数据科学家!根据Wikipedia的说法,大多数学者都会同意我的观点https://en.wikipedia.org/wiki/Data_science等)

尽管在业务环境中使用了“数据科学”一词,但许多学者和新闻工作者认为数据科学和统计数据之间没有区别。

但是,如果我要在所有这些工作面试中担任数据科学家职位,为什么感觉他们从来没有问过我统计问题?

在上次面试之后,我确实希望任何优秀的科学家都能做得到,并且我寻找了解决该问题的数据(嘿,我毕竟是数据科学家)。但是,在经过无数次Google搜索之后,我终于回到了开始的感觉,好像我再次在努力解决数据科学家的定义。我不知道一个数据科学家是究竟是什么,因为有它的定义这么多,(http://blog.udacity.com/2014/11/data-science-job-skills.htmlHTTP:// WWW -01.ibm.com/software/data/infosphere/data-scientist/),但似乎每个人都在告诉我我想成为一个:

归根结底,我想出的是“什么是数据科学家”是一个很难回答的问题。哎呀,在Amstat有整整两个月的时间,他们花时间试图回答这个问题:

好了,现在,我必须成为一名性感的统计学家才能成为数据科学家,但希望经过交叉验证的社区可能能够阐明一些观点,并帮助我理解成为数据科学家的意义。并非所有的统计学家都是数据科学家吗?


(编辑/更新)

我认为这可能使谈话变得有趣。我刚刚收到美国统计协会的一封电子邮件,内容涉及与Microsoft寻找数据科学家的职位。这里是链接:数据科学家职位。我认为这很有趣,因为该职位的角色影响了我们一直在谈论的许多特定特征,但是我认为其中许多特征需要非常严格的统计背景,并且与下面发布的许多答案相矛盾。万一链接失效,以下是微软在数据科学家中寻求的素质:

核心工作要求和技能:

使用Analytics的业务领域经验

  • 必须具有多个相关业务领域的经验,需要运用批判性思维技能来使用大型现实业务数据集中的高级分析概念化复杂的业务问题及其解决方案
  • 候选人必须能够独立运行分析项目,并帮助我们的内部客户了解调查结果,并将其转化为行动以使他们的业务受益。

预测建模

  • 跨行业的预测建模经验
  • 与客户进行业务问题定义和概念建模,以引起重要的关系并定义系统范围

统计/计量经济学

  • 对连续和分类数据进行探索性数据分析
  • 针对企业和消费者行为,生产成本,要素需求,离散选择以及其他需要的技术关系的结构模型方程的规范和估计
  • 先进的统计技术可分析连续和分类数据
  • 时间序列分析和预测模型的实现
  • 处理多变量问题的知识和经验
  • 评估模型正确性和进行诊断测试的能力
  • 能够解释统计数据或经济模型
  • 建立离散事件仿真和动态仿真模型的知识和经验

数据管理

  • 熟悉使用T-SQL和分析进行数据转换以及将探索性数据分析技术应用于非常大的实际数据集
  • 注意数据完整性,包括数据冗余,数据准确性,异常或极端值,数据交互和缺失值。

沟通与合作技巧

  • 独立工作并能够与虚拟项目团队合作,该团队将研究创新的解决方案以解决业务难题
  • 与合作伙伴合作,运用批判性思维技能,并推动端到端的分析项目
  • 出色的口头和书面沟通能力
  • 可视化分析结果,其形式可由各种利益相关者使用

软体套件

  • 先进的统计/计量经济学软件包:Python,R,JMP,SAS,Eviews,SAS Enterprise Miner
  • 数据探索,可视化和管理:T-SQL,Excel,PowerBI和等效工具

资格:

  • 至少5年以上相关经验
  • 定量领域的研究生学位是可取的。

6
好问题!我最近一直在想这个问题。在我看来,描述中包括数据科学家的工作似乎是在寻找可以应用能够很好地扩展统计/ ML方法的人员,而不一定是那些能够处理理论的人员。我仍然认为这些职位描述中有些多余。要求博士学位通常可能是一项过高的资格,而做出这些职位描述的人力资源人员会受到围绕大数据的嗡嗡声的严重影响。我想看到回答的主要问题是数据科学家,统计学家,反之亦然。
Gumeo'2

4
我认为这是一篇出色的论文,可以解决从统计学家到数据科学家的文化转变:projecteuclid.org/download/pdf_1/euclid.ss/1009213726
RustyStatistician

6
“但是,如果我要在所有这些工作面试中担任数据科学家职位,那为什么感觉他们从来没有问过我统计问题呢?” ...我的生活故事...从字面上看,哈哈!我认为数据科学,统计学,计量经济学,生物统计等。有很多重叠之处,但是它们都使用不同的术语,这使沟通变得困难(尤其是当您正在接受不熟悉知识并专注于关键字的HR人员面试时)。希望跨学科的努力和一些急需的思想开放会在将来改变这种情况。
Zachary Blumenfeld

9
自从“数据科学家的崛起”在2008年左右成为主流以来,我一直在关注它。对我而言,它过去是(而且主要是)一个引起炒作的营销术语-学科统计,机器学习,数据工程,数据分析都是相同,但重点不同。G. Box的释义:如果被问到诸如“您是贝叶斯,常客,数据分析师,实验设计师,数据科学家?”之类的问题。说“是”。
Momo '02

10
@Momo:尽管如此,如果打开600多页的教科书中的一本称为“机器学习”(或类似),而其中一本教科书中的“ Statistics”(或类似),则几乎没有重叠。我的Bishop的模式识别和机器学习或Murphy的机器学习与雷曼和卡斯拉的点估计理论,卡斯拉和伯杰统计推断或麦克斯韦和德莱尼设计实验和数据分析的交集几乎为零。它们是如此不同,以至于我认为熟悉一套书的人可能很难阅读另一套书。
amoeba

Answers:


52

有一些幽默的定义尚未给出:

数据科学家:在Mac上进行统计的人。

我喜欢这个,因为它在实质性的炒作之上表现出色。

数据科学家:居住在旧金山的统计学家。

同样,这也散发出所有西海岸风味。

就我个人而言,我发现讨论(总体上和这里)有些无聊且重复。当我在想-可能是25年或更久以前-时,我的目标是定量分析师。那仍然是我所做的(也是最爱的!),它大部分重叠并且涵盖了各种答案中给出的内容。

(注意:引号2有较旧的来源,但我现在找不到。)


27
+1。I find the discussion (in general, and here) somewhat boring and repetitive我会无聊的琐事或新的嗡嗡声。之后,我仍然无法区分数据科学家,基督教科学家和数据科学家。
ttnphns

1
哈哈@ data scientologists。
dsaxton '16

4
我向(当然是匿名的)非常认真的人致敬,他只是来了,投票而没有留下任何理由。提示:讨论不是如何改善的。
Dirk Eddelbuettel '16

1
作为南旧金山的一名统计学家,他非常积极地争夺“数据科学家”的称号,第二个定义离家太近了(但我不是低估者)。
Cliff AB

1
(+1)@CliffAB我实际上也是南旧金山的一名统计学家。
RustyStatistician

87

人们对数据科学的定义不同,但是我认为最常见的部分是:

  • 实践知识如何处理数据,
  • 实用的编程技巧。

与它的名字相反,它很少是“科学”。也就是说,在数据科学中,重点在于实际结果(例如在工程中),而不是证明,数学纯正或学术科学的严格特征。事情需要工作,如果它是基于学术论文,对现有库的使用,您自己的代码或即兴破解,则几乎没有什么区别。

统计员不必是程序员(可以使用纸笔和专用软件)。同样,数据科学领域的一些工作要求与统计无关。例如,它是数据工程,就像处理大数据一样,即使那里最先进的数学可能正在计算平均值(不过,我个人不会将此活动称为“数据科学”)。此外,“数据科学”被大肆宣传,因此与切向相关的工作使用此标题-吸引求职者或提高现职员工的自我意识。

我喜欢Michael Hochster关于Quora的回答中的分类法:

A型数据科学家:A用于分析。这种类型主要与理解数据或以相当静态的方式使用它有关。A型数据科学家与统计学家非常相似(可能是一位),但知道使用统计课程中未讲授的数据的所有实用细节:数据清理,处理超大数据集的方法,可视化,对特定领域的深入了解,写得很好的数据等等。

B型数据科学家:B用于建筑。B型数据科学家与A型有一些统计背景,但是他们也是非常强大的编码人员,并且可能是受过训练的软件工程师。B型数据科学家主要对“在生产中使用”数据感兴趣。他们建立与用户互动的模型,并经常提供建议(产品,您可能认识的人,广告,电影,搜索结果)。

从这个意义上说,A型数据科学家是可以编程的统计学家。但是,即使在定量方面,也可能有一些比计算机科学(例如机器学习)具有更多背景知识的人,而不是那些有规律的统计数据,或者专注于例如数据可视化的人。

数据科学维恩图(此处:黑客〜编程):

数据科学维恩图

另请参见替代的维恩图(thisthat)。甚至是一条幽默的推文,显示了数据科学家的典型技能和活动的平衡列表:

数据科学家应该能够

另请参阅此帖子:数据科学家-统计员,程序员,顾问和可视化工具?


14
我喜欢这条推文。我要补充一点,他还应该知道如何烤披萨,种植自己的生态蔬菜,写诗和跳舞莎莎:)
蒂姆

3
次要问题:并非所有“科学”都强调“证明或数学纯正”。想想生物学。
amoeba

2
破解p值是什么意思?在我看来,某人(又名客户)具有指定的p值目标,并且数据科学家应该对数据进行切割和切块,以便可以实现p值目标。还是应该说是不同的意思?
emory

2
@amory此推文很幽默(这是en.wikiquote.org/wiki/Time_Enough_for_Love中的一段文字,“一个人应该可以[列出]。专长是昆虫。”)。“具有p值”无疑是一种黑暗的做法(可悲的是,在某些学科中很普遍),(我希望)在这里是个笑话。
Piotr Migdal

4
+1表示不称呼某人为在庞大数据集上计算简单“统计量”的数据科学家。我认为我们正在迈出数据科学的新阶段,专门从事集群计算(Hadoop等)的计算机科学家被称为“数据科学家”。我并没有看不起那些技能,但是它们并不像统计/推理/调查技能那么重要,并且该技术已经超越了地图缩减。
韦恩

42

数据科学领域有许多调查。我喜欢一点,因为它试图分析实际从事数据科学工作的人员的概况。他们没有使用传闻证据或作者的偏见,而是使用数据科学技术来分析数据科学家的DNA。

看看数据科学家列出的技能,这真是一件很有意义的事情。请注意,前20名技能包含许多IT技能。

在当今世界,数据科学家有望成为所有行业的佼佼者。具有扎实的定量基础,有编程才能,无限的好奇心和良好的沟通能力的自学者。

在此处输入图片说明

更新:

我是统计学家,但我是数据科学家吗?我致力于科学问题,所以我必须成为一名科学家!

如果您获得博士学位,则很可能已经是一位科学家,特别是如果您已发表论文并进行了积极的研究。但是,您不必成为科学家就可以成为数据科学家。在某些公司中,例如沃尔玛(Walmart),有一些职位(请参阅下文),需要博士学位,但通常情况下,数据科学家都拥有BS和MS学位,如您在以下示例中所见。

从上表可以看出,很可能您需要具备良好的编程和数据处理技能。而且,数据科学通常与某种程度的机器学习专业知识(通常是“深度”)相关联。如果您拥有统计学博士学位,那么您当然可以称自己为数据科学家。但是,顶尖大学的计算机科学博士学位可能比统计专业的毕业生更具竞争力,因为他们可能拥有相当强的应用统计知识,并辅之以强大的编程技能,这是雇主​​所追求的组合。为了与他们抗衡,您必须具备强大的编程技能,因此,在平衡方面您将非常有竞争力。有趣的是,通常所有的统计博士学位都将具有一定的编程经验,但是在数据科学中,通常要求远远高于此,

对我而言,拥有统计学博士学位的优势在于通常被丢弃的“万事通”一词的其余部分所捕获的问题:“精通一切”。拥有一点点知识的人是一件好事,但是我总是寻找那些也很了解某些东西的人,无论统计数据还是计算机科学都不那么重要。重要的是,这个家伙有能力跌入谷底,当您需要它时,这是一种方便的素质。

该调查还列出了数据科学家的顶级雇主。显然,微软位居榜首,这令我感到惊讶。如果您想更好地了解他们要寻找的内容,可以在Jobs部分中使用“数据科学”搜索LinkeIn。以下是MS和Walmart在LinkedIn上的工作的两个摘录。

  • 微软数据科学家

    • 在构建数据处理系统/服务方面拥有5年以上软件开发经验
    • 具有计算机科学,EE或数学的学士学位或更高学历,并具有统计,数据挖掘或机器学习的专业。
    • 擅长处理大规模数据的编程技巧(C#,Java,Python等)
    • Hadoop或其他大数据处理技术的工作知识
    • 精通分析产品(例如R,SQL AS,SAS,Mahout等)的知识。

请注意,了解统计信息包只是一个加号,但是必须具备Java方面的出色编程技能。

  • 沃尔玛,数据科学家

    • 拥有至少2-5年相关经验的计算机科学或类似领域的博士学位或MS
    • 精通C ++或Java的函数式编码技巧(高度首选Java)
    • 必须能够在C ++ / Java / Hadoop / Hive中花费多达10%的日常工作来编写生产代码
    • 对一种脚本语言(例如Python或Perl)的专业知识。
    • 具有使用大型数据集和分布式计算工具的丰富经验(Map / Reduce,Hadoop,Hive,Spark等)

在这里,博士是首选,但只有计算机科学专业被命名。对于统计学家来说,使用Hadoop或Spark进行分布式计算可能是一项不寻常的技能,但是一些理论物理学家和应用数学家使用类似的工具。

更新2:

托马斯·达文波特(Thomas Davenport)共同撰写了2012年《哈佛商业评论》上题为“数据科学家:21世纪最性感的工作”的文章,他说:“现在是时候杀掉“数据科学家”头衔了,这开始激起了数据科学家的热潮:

今天说您是(或想成为或想雇用)“数据科学家”是什么意思,不幸的是,这并不多。


3
+1用于使用数据并链接到不错的数据驱动报告。但是截图需要Web浏览器界面吗?
Piotr Migdal

@PiotrMigdal,我应该学会庄稼或停止懒惰
Aksakal

4
我帮你剪了
amoeba

1
我很想在今天的更新后投下反对票:这个线程已经很忙了,在我看来,巨大的引用量向下滚动不是很有帮助...也许链接+简短的摘要就足够了?
amoeba

1
@amoeba,我删除了列表。这是一个公平的评论
阿克萨卡尔州

39

我在某处读过这篇文章(编辑:Josh Will在解释他的推文):

数据科学家是一个在统计方面比任何程序员都出色并且在编程方面比任何统计学家都出色的人。

这个报价可以通过数据科学过程简短地解释。对该方案的初看起来是“嗯,编程部分在哪里?”,但是如果您有大量数据,则必须能够处理它们。


11
那么大概每个R统计家都是统计学家吗?;)
蒂姆

15
哇,我只是漫步在网站上,想知道这个问题(假设存在数据科学),然后顺便得知我拥有一个严谨的Wikipedia页面?这对我来说是个新闻……就我值得的是,我接受了计量经济学(而不是统计)方面的培训,但是已经从事了20多年的“定量研究”。这实际上与数据科学一样……
Dirk Eddelbuettel

3
-1。我之所以投票,并不是因为我不喜欢这句话(无论如何,这很可能是舌尖上的舌头),而是因为答案过于简短和缺乏实质性,特别是与这里的许多其他答案相比。我建议将其转换为评论,除非您以某种方式扩展它。
amoeba

3
这是作者乔什·威尔斯(Josh Wills)对这句话的解释。引用后的前三段与该讨论非常相关。
amoeba

3
@amoeba:到目前为止,我一直喜欢Josh Wills的文章:“我怀疑我们通过关注需要大量演算而不是非参数模型的参数模型来教人们先进的统计数据,这往往会吓倒计算机科学家。主要是计算上的”。另外,我确实不同意他的观点,即向CS员工教授高级统计数据比对统计学家进行良好编程要容易得多(尽管我当然同意大多数统计学家都是可怕的程序员)。
Cliff AB

15

我写了几个答案,每次他们回答得很长,我最终决定我要开始做一个肥皂盒。但是我认为这次对话没有充分探讨两个重要因素:

  1. 科学的数据科学。科学方法是您尝试破坏自己的模型,理论,功能,技术选择等的方法,只有当您不能这样做时,您才接受结果可能有用。这是一种思维定势,我遇到的许多最好的数据科学家都具有硬科学背景(化学,生物学,工程学)。

  2. 数据科学是一个广阔的领域。良好的数据科学成果通常涉及一小组数据科学家,每个小组都有自己的专长。例如,一个团队成员更加严格和统计,另一个是具有工程背景的更好的程序员,另一个是具有业务头脑的强大顾问。这三个人都很快学习主题,所有三个人都很好奇,他们想找到真相(无论多么痛苦),并做到(内部或外部)客户的最大利益,即使客户没有这样做。不明白。

过去几年的时尚-我认为现在正在消失-是招募精通集群技术(Hadoop生态系统等)的计算机科学家,并说那是理想的数据科学家。我认为这就是OP所遇到的,我建议OP加强他们在严谨,正确和科学思考方面的​​优势。


@ RustyStatistician:不客气。我要补充的是,我所工作的咨询公司拥有博士学位(工程学,生物学,天文学,计算机科学),但总的来说,将MS学位(通常是具有工作经验的人重新获得Analytics(分析)硕士学位)作为最佳选择。就是说,我每天都感谢我的生物学博士同事,他目前正在一个由我担任技术负责人的项目中。除了具有经济学背景的项目负责人(以及分析专业的硕士学位),我们还是一支优秀的团队!(我的硕士学位是人工智能的。)
韦恩(Wayne

+1,但我想知道您的第一个要点是说[良好]数据科学一门科学。如果是这样的话,这是一个好奇的词,也许是一个误导(?)的词,因为“数据科学”本身并不是在研究“数据”。它正在使用数据来研究其他内容,无论给定应用程序感兴趣的是什么。与此相反,例如,顾名思义,“政治科学”应该研究政治,而“神经科学”应该研究神经元。
amoeba

1
@amoeba:实际上,我的意思是数据科学家必须使用科学方法ala Richard Feynman作为他们理解和使用数据的一部分。(正如您所说,追求特定的应用程序。)这是统计学家的工作:“这个变量似乎非常重要-是将来的泄漏吗?” 或“此模型似乎是合理的,但让我们在整个模型创建过程中运行CV,然后在此之上进行一些重采样。” 它正在努力反驳您的模型/理论,并让其他人参与进来。不接受“绿色M&M会致癌”。
韦恩

到目前为止,@ Wayne是唯一提及“科学方法”的人。真伤心
jgomo3 '16

任何试图理解任何事物的人都必须了解物理学,尤其是单位。但是,在我们这个勇敢的新世界中,通常进行启发式观察就具有作为“目标阻止者”的次优预测价值,但并不是真正的解决方案。
卡尔,

14

我认为Bitwise涵盖了我的大部分答案,但我要添加2c。

不,我很抱歉,但统计学家不是数据科学家,至少基于大多数公司今天对角色的定义是这样。请注意,定义已随着时间而改变,从业人员面临的一项挑战是确保他们保持相关性。

我将分享一些为什么我们拒绝“数据科学家”职位候选人的常见原因:

  • 对工作范围的期望。通常,DS需要能够独立工作。这意味着没有其他人可以为他创建数据集以解决分配给他的问题。因此,他需要能够找到数据源,对其进行查询,为解决方案建模,然后通常还可以创建一个解决问题的原型。很多时候,这仅仅是创建不断更新的仪表板,警报或实时报告。
  • 沟通。看来,许多统计人员都很难将其思想“简化”和“出售”给商务人士。您能否只显示一张图表并通过数据讲一个故事,使房间中的每个人都可以得到它?请注意,这是在确保安全后,如果遇到挑战,您可以捍卫分析的每一点。
  • 编码技巧。我们不需要生产级别的编码技能,因为我们有开发人员对此进行开发,但是,我们需要她能够编写原型并将其作为Web服务部署到AWS EC2实例中。因此,编码技能并不意味着能够编写R脚本。我可以在这里的某个地方添加Linux的流畅性。因此,该门槛比大多数统计学家倾向于相信的门槛更高。
  • SQL和数据库。不,他不能在工作上接管这件事,因为我们实际上需要他适应他已经知道的基本SQL并学习如何查询我们在整个组织中使用的多个不同的DB系统,包括Redshift,HIVE和Presto-每个它使用自己的SQL风格。另外,在工作中学习SQL意味着应聘者将在其他所有分析师中产生问题,直到他们学习如何编写有效的查询为止。
  • 机器学习。通常,他们已经使用Logistic回归或其他几种技术来解决基于给定数据集的问题(Kaggle样式)。但是,即使访谈是从算法和方法开始的,也很快会关注以下主题,例如特征生成(记住您需要创建数据集,没有其他人可以为您创建数据集),可维护性,可扩展性和性能以及相关内容。权衡。在某些情况下,您可以查看Google在NIPS 2015上发表的相关论文
  • 文本分析。并非必须具备,但是一定要具备自然语言处理方面的经验。毕竟,大部分数据都是文本格式的。正如讨论的那样,没有其他人可以进行转换并为您整理文本,以便通过ML或其他统计方法来使用它。另外,请注意,今天,即使是CS毕业生也已经完成了一些使此框打勾的项目。

当然,对于初级职位来说,您不能具备上述所有条件。但是,您能负担多少这些技能并承担起工作呢?

最后,需要澄清的是,拒绝非统计人员的最常见原因恰恰是缺乏统计的基本知识。数据工程师和数据科学家之间存在差异。但是,数据工程师倾向于申请这些角色,因为许多时候他们认为“统计”只是平均值,方差和正态分布。因此,我们可能会在职位描述中添加一些相关但令人恐惧的统计流行语,以阐明“统计”的含义并防止混淆。


4
自2006年以来,我在两所大学的“商业信息学”课程中教授应用统计和数据分析课程,这100%应用于我的学生所学。1.他们需要从其业务,网络,调查等中收集真实的,可能是混乱的数据。2.对该课程进行清理,准备并将数据存储在SQL数据库中。3.对数据进行各种统计分析。4.准备1-2页的简短执行摘要,并用文字编程(编织器等)编写深入的报告。从该数据科学中可以得到带有附加统计/ ML课程的商业信息学,不是吗?
Momo

4
当然,您的课程涵盖了许多必需的技能。我想我们可以找到许多组合,例如,计算机科学学位和一些统计课程以及关于基于业务ML的问题的论文/实习。归根结底,重要的是候选人提出的相关技能的深度和广度。
iliasfl '02

11

请允许我忽略炒作和流行语。我认为“数据科学家”(或任何您想称呼它的东西)是真实的东西,与统计学家截然不同。数据科学家实际上有很多职位,但没有给出名称。一个例子是从事基因组学研究的人员。

从我的角度来看,数据科学家是具有一定技能和专业知识的人,可以设计和执行对大量复杂数据的研究(例如,高度维度的基础机制未知且复杂)。

这意味着:

  • 编程:能够实现分析和管道,通常需要一定程度的并行化并与数据库和高性能计算资源进行接口。
  • 计算机科学(算法):设计/选择有效的算法,以便选择的分析可行并且可以控制错误率。有时这可能还需要数值分析,优化等方面的知识。
  • 计算机科学/统计学(通常侧重于机器学习):设计和实现框架,以便对数据提出问题或在其中找到“模式”。这不仅包括不同测试/工具/算法的知识,还包括如何设计适当的保留,交叉验证等。
  • 建模:通常,我们希望能够生成一些模型,以更简单地表示数据,以便我们既可以做出有用的预测,又可以洞悉数据的基础机制。概率模型对此很受欢迎。
  • 特定领域的专业知识:成功处理复杂数据的一个关键方面是结合特定领域的洞察力。因此,我想说至关重要的是,数据科学家要么具有该领域的专业知识,能够快速学习新的领域,要么应该能够与该领域的专家进行良好的交流,从而能够获得有关如何处理数据的有用见解。 。

6
您认为谁是统计学家?此技能列表与“统计学家”应该具有的技能有何不同?
变形虫

4
@amoeba我可能是错的,但是许多统计学家并不具备其中某些技能(例如,具有海量数据集的广泛编程,计算机科学的研究生级培训)。同样,某些统计技能通常对于数据科学家来说是无关紧要的(某些理论上是某些子领域)。
按位

4
@rocinante:我强烈不同意“用'大量数据集'编程并不是真正的障碍”。我认为我不认识任何一个拥有“统计学家”头衔的人,他可以实施基于服务器上传入数据包做出实时决策的软件。当然,并不是所有的数据科学家既可以,但比例是多少高。
悬崖AB

3
@rocinante对统计数据有很好的了解是必要的,但在我看来还不够。关于统计数据与其他技能的深刻性/难度,我认为对计算机科学方面的深入了解同样是深刻/困难的,甚至更多。另外,关于该SE的问题,您可以在任何SE(包括该SE)上找到这些类型的问题-它没有任何意义,只不过有些人希望在不理解的情况下寻求简单的解决方案。
按位

6
在这些“数据科学与统计”辩论中令人厌烦的一件事是,隐含着一种暗示,即数据科学家就像统计学家的高级人才。事实是,随着您知识面广度的增加,深度下降,而那些在成为“数据科学家”所必需的所有工作上都比一无所知的人要精明的我,我想他们对这些事情中的大多数都是很肤浅。通常,要在人们期望这些神话般的数据科学家掌握的任何领域中接近专家都是极其困难的。
dsaxton '16

7

所有出色的答案,但是在我的求职经历中,我已经注意到,在与我接触的招聘人员的心中,“数据科学家”一词与“初级数据分析师”混为一谈。因此,除了几年前他们开设的入门级一学期课程外,许多没有统计经验的好人现在都称自己为数据科学家。作为具有计算机科学背景和多年数据分析师经验的人,我在职业生涯的后期获得了统计学博士学位,认为这将有助于我从人群中脱颖而出,我发现自己身在意料之外的“数据科学家”人群中”。我认为我可能会回复“统计学家”!


5
我基本上看到同一件事。任何需要处理数据或进行分析的工作都称为“数据科学”。我认为金融领域的“量化”也发生了类似的事情,任何处理数据的人都称自己为“量化”。
Akavall '16

6

我是初级员工,但是我的职位是“数据科学家”。我认为Bitwise的答案是对我被聘用的工作的恰当描述,但我想根据我的日常工作经验再增加一点:

Data ScienceStatistics,
StatisticsData Science.

科学是探究的过程。当数据是进行查询的手段时,数据科学正在发生。这并不意味着每个用数据进行实验或研究的人都一定是数据科学家,就像不是每个用布线进行实验或研究的人都必须是电气工程师的方式一样。但这确实意味着人们可以接受足够的培训以成为一名专业的“数据查询者”,就像人们可以接受足够的培训以成为一名专业的电工一样。训练或多或少地包含了Bitwise答案中的要点,其中统计是组成部分,而不是全部。

皮特尔(Piotr)的答案也很好地总结了我需要做的所有事情希望我知道在给定的一周中该怎么做。到目前为止,我的工作主要是帮助消除属于维恩图“危险区域”部分的前雇员所造成的损害。


2
+1。我认为在此线程中聆听实际上受聘为“数据科学家”的人们的意见非常有价值。
amoeba

(+1)@amoeba我同意您的观点100%。
RustyStatistician

8
Data ScienceStatisticsStatisticsData ScienceStatisticsData Science

@caveman我绝对同意。
RustyStatistician

1
StatisticsData ScienceStatisticsData ScienceData Science

3

我最近也对数据科学这一职业感兴趣,当我想起与我参加(并享受!)的众多统计学课程相比,从数据科学工作中学到的东西时,我开始认为数据科学家是将注意力转向数据的计算机科学家。我特别指出了以下主要区别。请注意,尽管差异出现在情绪上。以下内容仅反映了我的主观印象,我不主张一般性。只是我的印象!

  1. 在统计中,您非常关心分布,概率和推论过程(如何进行假设检验,这些是基础分布等)。据我了解,数据科学通常更多地是关于预测的,而对推理语句的担忧在某种程度上被计算机科学的过程所吸收,例如交叉验证。

  2. 在统计课程中,我经常只是创建自己的数据,或者使用一些现成的数据,这些数据以非常干净的格式可用。这意味着它采用了不错的矩形格式,一些excel电子表格或类似RAM的格式。确实涉及到数据清理,但是我从来不必处理从Web上“提取”数据的问题,更不用说从必须设置以容纳不再适合RAM的数据量的数据库了。我的印象是,此计算方面在数据科学中占主导地位。

  3. 也许这反映了我对统计学家在典型的统计工作中所做的工作的无知,但是在进行数据科学之前,我从未想过将模型构建成更大的产品。要做一个分析,一个统计问题要解决,一些参数要估计,就是这样。在数据科学中,似乎经常(尽管并非总是)将预测模型构建到更大的模型中。例如,您单击某处,在几毫秒内,预测算法将确定结果显示的内容。因此,在统计学中,我一直想知道“我们可以估计哪些参数,以及我们如何优雅地完成它”,似乎在数据科学中,重点更多地放在了“我们可以预测哪些参数对数据产品可能有用”上。 。

再次,以上未尝试给出一般定义。我只是指出我已经意识到自己的主要差异。我还没有从事数据科学,但是我希望在明年过渡。从这个意义上说,我两分钱就加一盐。


2

我说的是一位数据科学家,它使用一种方法使结果在统计上是可靠的(重要的),从而为企业创建人类可读的结果。

如果未遵循此定义的任何部分,我们将谈论开发人员,真正的科学家/统计学家或数据工程师。


2

我一直喜欢切题。

statistics - science + some computer stuff + hype = data science

1
这听起来像是我对“机器学习”形成的印象,我将其概括为“学习如何在不了解软件实际工作的情况下操作软件”(当然,这是不公平的,但是我们看到了很多“机器学习”那些从学校出来的人什么都不懂,但是除了不同种类的神经网络的调整参数代表什么之外。)
jbowman

1

数据科学是数据推理,算法开发和技术的多学科融合,旨在解决复杂的分析问题。但是由于数据科学家的匮乏,数据科学事业确实可以创造许多机会。但是,组织正在寻找SAS,美国数据科学理事会(DASCA),Hortonworks等认证的专业人员。希望这是一个很好的信息!


1

数据科学家在Python,MySQL和Java开发方面具有非常熟练的技能。

他们对分析功能有非常清楚的了解,非常擅长数学,统计,数据挖掘,预测分析技能,并且对Python和R等编码语言也非常了解。

现在,许多数据科学家都拥有博士学位。或根据研究,他们的硕士学位实际上只有8%左右,只是学士学位,所以要深入得多。

建立基于数据进行决策的统计模型。每个决定可能很难(例如,阻止页面呈现),也可能(例如)为向下的系统或人员使用的页面恶意性分配分数。

进行因果关系实验,尝试归因于观察到的现象的根本原因。这可以通过设计A / B实验来完成,或者如果无法通过A / B实验对问题应用流行病学方法来完成,例如@ Rubin因果模型

识别通过释放数据价值而产生的新产品或功能;成为数据价值的思想领袖。一个很好的例子是亚马逊首先向大众提供的产品推荐功能。


1
好吧,不。我在数据科学家工作链上的才能很高,而且我一点也不懂Java,也一点也不精通Python,而我的MySQL技能也充其量。在我们的小组中,我们还有其他一些人很少了解Python,而更喜欢R,并且只有一个人知道Java,但他主要使用R和C / C ++进行编码(像我一样。)三个人知道Python但实际上并不知道低级语言。我不想涉足Python v。R火焰战争或Java v。C / C ++,但绝不是任何与编程相关的技能列表都是必需的。
jbowman

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.