什么是数据科学家?
最近从我的统计学博士课程毕业后,我在过去的几个月里开始寻找统计学领域的工作。我考虑的几乎每家公司都有一份工作职位,职位名称为“ 数据科学家 ”。实际上,看到统计科学家或统计学家职位的日子早已一去不复返了。曾经是一名数据科学家真的取代了统计学家吗?还是我想知道这些称谓的代名词? 好吧,大多数工作资格证明都像统计学家的头衔一样。大多数工作都希望获得统计学博士学位(),最需要的理解实验设计(),线性回归和方差分析(),广义线性模型()以及其他多元方法,例如PCA() ,以及统计计算环境(例如R或SAS )中的知识()。听起来数据科学家实际上只是统计学家的代号。✓ ✓ ✓ ✓ ✓✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark 但是,每次面试时我都会问一个问题:“那么,您是否熟悉机器学习算法?” 通常,我发现自己不得不尝试回答有关大数据,高性能计算以及神经网络,CART,支持向量机,增强树,无监督模型等主题的问题。当然,我确信自己都是这些有关统计问题的内心深处,但是在每次面试结束时,我都忍不住对数据科学家的了解越来越少。 我是统计学家,但我是数据科学家吗?我致力于科学问题,所以我必须成为一名科学家!而且我还处理数据,所以我必须是一名数据科学家!根据Wikipedia的说法,大多数学者都会同意我的观点(https://en.wikipedia.org/wiki/Data_science等) 尽管在业务环境中使用了“数据科学”一词,但许多学者和新闻工作者认为数据科学和统计数据之间没有区别。 但是,如果我要在所有这些工作面试中担任数据科学家职位,为什么感觉他们从来没有问过我统计问题? 在上次面试之后,我确实希望任何优秀的科学家都能做得到,并且我寻找了解决该问题的数据(嘿,我毕竟是数据科学家)。但是,在经过无数次Google搜索之后,我终于回到了开始的感觉,好像我再次在努力解决数据科学家的定义。我不知道一个数据科学家是究竟是什么,因为有它的定义这么多,(http://blog.udacity.com/2014/11/data-science-job-skills.html,HTTP:// WWW -01.ibm.com/software/data/infosphere/data-scientist/),但似乎每个人都在告诉我我想成为一个: https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL 等等...清单继续。 归根结底,我想出的是“什么是数据科学家”是一个很难回答的问题。哎呀,在Amstat有整整两个月的时间,他们花时间试图回答这个问题: http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/ http://magazine.amstat.org/blog/2015/11/01/statnews2015/ 好了,现在,我必须成为一名性感的统计学家才能成为数据科学家,但希望经过交叉验证的社区可能能够阐明一些观点,并帮助我理解成为数据科学家的意义。并非所有的统计学家都是数据科学家吗? (编辑/更新) 我认为这可能使谈话变得有趣。我刚刚收到美国统计协会的一封电子邮件,内容涉及与Microsoft寻找数据科学家的职位。这里是链接:数据科学家职位。我认为这很有趣,因为该职位的角色影响了我们一直在谈论的许多特定特征,但是我认为其中许多特征需要非常严格的统计背景,并且与下面发布的许多答案相矛盾。万一链接失效,以下是微软在数据科学家中寻求的素质: 核心工作要求和技能: 使用Analytics的业务领域经验 必须具有多个相关业务领域的经验,需要运用批判性思维技能来使用大型现实业务数据集中的高级分析概念化复杂的业务问题及其解决方案 候选人必须能够独立运行分析项目,并帮助我们的内部客户了解调查结果,并将其转化为行动以使他们的业务受益。 预测建模 跨行业的预测建模经验 与客户进行业务问题定义和概念建模,以引起重要的关系并定义系统范围 统计/计量经济学 对连续和分类数据进行探索性数据分析 针对企业和消费者行为,生产成本,要素需求,离散选择以及其他需要的技术关系的结构模型方程的规范和估计 先进的统计技术可分析连续和分类数据 时间序列分析和预测模型的实现 处理多变量问题的知识和经验 评估模型正确性和进行诊断测试的能力 能够解释统计数据或经济模型 建立离散事件仿真和动态仿真模型的知识和经验 数据管理 熟悉使用T-SQL和分析进行数据转换以及将探索性数据分析技术应用于非常大的实际数据集 注意数据完整性,包括数据冗余,数据准确性,异常或极端值,数据交互和缺失值。 沟通与合作技巧 独立工作并能够与虚拟项目团队合作,该团队将研究创新的解决方案以解决业务难题 与合作伙伴合作,运用批判性思维技能,并推动端到端的分析项目 出色的口头和书面沟通能力 …