在没有特定主题知识的情况下,数据科学作为职业值得追求吗?[关闭]


15

最近,我与某人进行了交谈,并提到了我对数据分析的兴趣以及我打算学习必要的技能和工具的人。他们向我建议,虽然学习工具和建立技能很棒,但除非我在特定领域具有专门知识,否则这样做毫无意义。

他们的基本结论是,我就像一个拥有大量工具的建筑商,可以建造一些木箱,并且可以建造更好的东西(客舱,橱柜等),但是如果没有特定领域的知识,我永远不会成为建筑商,人们会去找特定的产品。

有没有人找到这个或对此有什么投入?似乎确实如此,人们将不得不学习事物的数据科学方面,然后学习一个新的领域以变得专业化。


虽然您的问题是有效的,但这不是正确的选择。与职业相关的问题不在此处讨论。
sheldonkreger 2014年

不清楚您在问什么-学习工具或收集领域知识会更好吗?对于StackExchange而言,可能过于开放和基于观点。
肖恩·欧文

Answers:


43

Drew Conway出版了《数据科学维恩图》,我对此深表赞同:

数据科学维恩图

一方面,您应该真正阅读他的文章。另一方面,我可以提供我自己的经验:我的主题专业知识(我更喜欢用术语“专业知识”,因为您确实应该在数学/统计和黑客方面也有“专业知识”)。零售业务,我的数学/统计数据是预测和推论统计数据,而我的黑客技能则在于R。

从这个有利的角度来看,我可以与零售商交谈和了解,如果某人至少不具备该领域的通行知识,那么在与零售商的项目中就必须面对陡峭的学习曲线。作为附带演出,我从事心理学方面的统计工作,那里的情况完全相同。即使掌握了该图中的黑客/数学/统计数据部分的知识,我仍然很难掌握信用评分或其他一些新主题。

一旦你有了一定的数学/统计和黑客技术的,这是很多更好的在一个或多个科目中增加获得接地比另一种编程语言,以你的黑客技能,或者数学/统计资料组合的另一种机器学习算法。毕竟,一旦您拥有可靠的数学/统计/黑客基础,就可以在相对较短的时间内从网络或教科书中学习此类新工具。但是另一方面,如果您从零开始,那么您可能无法从主题上学到专业知识。客户宁愿与了解自己领域的数据科学家A合作,也不愿与首先需要学习基础知识的另一位数据科学家B合作-即使B的数学/统计/黑客技能更好。

当然,这一切也将意味着你将永远不会成为一个专家或者三个字段。但这很好,因为您是数据科学家,而不是程序员,统计学家或主题专家。您可以在三个不同的圈子中总会有人向您学习。这是我喜欢数据科学的一部分。


编辑:过了一会儿,然后再想一些,我想用图表的新版本来更新这篇文章。我仍然认为黑客技巧,数学和统计知识以及实质性专业知识(为了易读而缩写为“程序设计”,“统计信息”和“业务”)很重要……但是我认为交流的作用也很重要。除非您可以将其与可能没有这种独特知识组合的人员进行交流,否则您利用黑客,统计数据和业务专业知识所获得的所有见解都不会有任何改变。您可能需要向需要说服花费或更改流程的业务经理解释您的统计见解。或针对不统计的程序员。

因此,这是新的数据科学维恩图,其中也将通信作为必不可少的组成部分。我以易于燃烧的方式标记了区域,以确保最大程度的燃烧。

发表评论。

新数据科学维恩图

R代码:

draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
    shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
    tt <- seq(0,2*pi,length.out=1000)
    foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
    polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)

png("Venn.png",width=600,height=600)
    opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
        plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
        draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
        draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
        draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
        draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)

        name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
        name(8,62,"Communi-\ncation",cex=1.5,pos=3)
        name(30,78,"Statistics",cex=1.5)
        name(70,78,"Programming",cex=1.5)
        name(92,62,"Business",cex=1.5,pos=3)

        name(10,45,"Hot\nAir")
        name(90,45,"The\nAccountant")
        name(33,65,"The\nData\nNerd")
        name(67,65,"The\nHacker")
        name(27,50,"The\nStats\nProf")
        name(73,50,"The\nIT\nGuy")
        name(50,55,"R\nCore\nTeam")
        name(38,38,"The\nGood\nConsultant")
        name(62,38,"Drew\nConway's\nData\nScientist")
        name(50,24,"The\nperfect\nData\nScientist!")
        name(31,18,"Comp\nSci\nProf")
        name(69,18,"The\nNumber\nCruncher")
        name(42,11,"Head\nof IT")
        name(58,11,"Ana-\nlyst")
        name(50,5,"The\nSalesperson")
    par(opar)
dev.off()

1
我是通过引用您更新后的图表的博客文章来到这里的。我认为这是对原始Conway版本的一个重大改进,尽管我无法完全理解这一概念(由重叠的大小暗示),统计学教授是具有相同统计和沟通技能的人。
罗伯特·德格拉夫

1

你当然可以。公司热衷于寻找数据科学家。请注意,尽管他们对术语的理解不同。根据公司的不同,您可能会被要求做任何事情,从统计到编写生产代码。任一个本身就是全职工作,您必须为两者做好准备,因此,我认为,在此基础上要求深厚的专业知识是不合理的,与我交谈过的公司强调了另外两个领域(尤其是编程)。但是,我发现熟悉您可能会遇到的问题类型会有所帮助。根据部门的不同,可能是异常检测,推荐/个性化,预测,记录链接等。这些是您可以在数学和编程的同时作为示例学习的东西。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.