术语模糊不清,因为它们是新术语
在“数据科学”领域寻找工作的过程中,我认为这里发生了两件事。首先,职位是新的,并且没有各种术语的固定定义,因此在将术语与职位描述进行匹配时并没有达成共识。将此与“ Web开发人员”或“后端开发人员”进行比较。这是两个相似的工作,在合理的范围内达成了共识并做出了不同的描述。
其次,许多从事职位发布和初次面试的人并不十分了解他们的招聘目标。在雇用招聘者为他们寻找申请人的中小型公司的情况下尤其如此。正是这些中介在CareerBuilder或任何论坛上发布了职位描述。这并不是说他们中的许多人不了解自己的东西,其中许多人对他们所代表的公司和工作场所的要求非常了解。但是,如果没有定义明确的术语来描述不同的特定工作,通常会产生模糊的职位名称。
该领域共有三个部门
根据我的经验,数据科学的“工作空间”大致分为三个部分。
首先是使数据科学成为可能的数学和计算技术的发展。这包括对新机器学习方法的统计研究,这些方法的实现以及在现实世界中使用这些方法的计算基础结构的构建。这是离客户最远的部门,也是最小的部门。大部分工作是由大公司(Google,Facebook等)的学者或研究人员完成的。这是用于开发Google的TensorFlow,IBM的SPSS神经网络或下一个大型图形数据库的东西。
第二部分是使用基础工具来创建特定于应用程序的程序包,以执行需要进行的任何数据分析。人们被雇用使用Python或R或其他工具来对某些数据集进行分析。以我的经验,很多工作涉及“数据清洗”,将任何形式的原始数据转换成可用的东西。这项工作的另一个重要部分是数据库基础。弄清楚如何以可以在任何时间轴上访问数据的方式存储数据。这项工作不是花很多工具,而是使用现有的数据库,统计信息和图形分析库来产生一些结果。
第三部门正在根据新组织和可访问的数据进行分析。这是面向客户最多的一面,具体取决于您的组织。您必须提供企业领导者可以用来做出决策的分析。这将是三个部门中技术最少的一个。由于数据科学还处于起步阶段,因此许多工作在第二和第三部门之间是混合的。但是在将来,我强烈怀疑这两个工作之间的划分会更加整洁,赢得第二个工作的人需要基于技术,计算机科学或统计学的教育,而获得第三个工作的人仅需要通识教育。
通常,所有三个人都可以称自己为“数据科学家”,但只有前两个人可以合理地称自己为“机器学习工程师”。
结论
就目前而言,您将不得不找出自己的工作内容。我目前的工作是聘请我担任“分析员”,从事一些机器学习工作。但是当我们开始工作时,很明显该公司的数据库基础不足,现在大概90%的时间都花在了数据库上。我的机器学习知识现在可以通过似乎最合适的scikit-learn软件包快速运行,然后将CSV文件拍摄给三级分析师以为客户做PowerPoint演示。
磁场在变化。许多组织都在尝试将数据科学决策添加到他们的流程中,但并不清楚其含义。这不是他们的错,很难预测未来,而且新技术的后果从来都不是很清楚。在此领域建立之前,许多工作本身将与描述这些工作的术语一样模糊。
Data scientist
听起来像是一个名称,但对实际的工作却不太清楚,而machine learning engineer
更具体。在第一种情况下,您的公司将为您提供目标,并且您需要确定您将使用哪种方法(机器学习,图像处理,神经网络,模糊逻辑等)。在第二种情况下,您的公司已经缩小到必须使用哪种方法。