Answers:
机器学习是高维应用统计的专业领域。这也需要相当多的程序设计背景,这对于一个好的定量程序而言并不是必需的,尤其是在本科级别上,但在某种程度上,在研究生级别上也是如此。它仅适用于统计的预测方面,而数学统计以及推论和描述性应用统计则需要注意。许多课程为学生提供了大量接触机器学习的机会(例如CMU),但是总体而言,工业统计学家很少有机会使用这些工具,除非有一些知名的高科技工作。
虽然我最近看到很多数据科学家和机器学习在就业市场上的位置,我觉得“统计学家”不需要机器学习背景的一般工作描述,但确实需要基本的统计,推理和交流的完美理解:这些实际上应该是研究生统计计划的核心。机器学习和数据科学作为职称和学科也相对较新。如果将其解决问题的策略转向机器学习,如果它在10年或20年内由于效果不佳而主要在商业/制药/生物科学企业中被放弃,那将对那些将统计学解决问题的策略转向机器学习的人们来说是无益的。
最后,我认为机器学习不会极大地增强对统计的扎实理解。统计学从根本上讲是一个跨学科领域,重要的是准确地交流和说服您所在领域的非技术专家(例如医生,CFO或管理人员),为什么选择选择的方法。机器学习是一个利基的,高度技术的领域,在许多应用实践中,它只能保证提供比标准工具和技术更好的性能。有监督和无监督学习中的许多方法被非专家(甚至一些受过较少培训的专家)视为“黑匣子”。当被要求捍卫他们对特定学习方法的选择时,有些解释会落空,并且不会利用任何应用问题引起的情况。
好吧,让我们谈谈统计学的大象,因为我们从与研究生课程密切合作的一两个人那里学到的东西蒙住了双眼。
统计课程要求他们认为合适的东西,也就是说,在学生有有限的学习时间的情况下,他们希望学生学习的最重要的东西是什么。需要一个狭窄的区域意味着与其他可以被认为同样重要的区域道别。有些程序需要度量理论概率,有些则不需要。有些要求使用外语,但是大多数程序不需要。有些程序将贝叶斯范式视为唯一值得研究的东西,但大多数却没有。有些程序知道对统计学家的最大需求是调查统计数据(至少在美国是如此),但大多数情况并非如此。生物统计学家计划遵循这笔钱,并向SAS +教授易于在医学和药学领域销售的方法。
对于设计农业实验,通过电话调查收集调查数据,验证心理测度表或在GIS中生成疾病发病率地图的人而言,机器学习是计算机科学的抽象艺术,与他们每天使用的统计数据相距甚远基础。这些人都不会从学习支持向量机或随机森林中获得任何直接收益。
总而言之,机器学习是对其他统计领域的很好补充,但我认为,诸如多元正态分布和广义线性模型之类的主流知识必须首先出现。
机器学习是关于从数据中获取知识/学习。例如,我使用机器学习算法,可以从DNA微阵列数据(例如癌症或糖尿病)中选择一些可能与特定类型的疾病有关的基因。然后,科学家可以将这些基因(学习的模型)用于将来的早期诊断(对未知样品进行分类)。
机器学习涉及很多统计信息,但是机器学习的某些分支不需要统计信息(例如,遗传编程)。在这些情况下,您唯一需要统计的地方就是查看您使用机器学习构建的模型是否与其他模型在统计上显着不同。
我认为,为统计学家介绍机器学习将是有利的。这将有助于统计学家了解现实世界中应用统计学的情况。但是,这不是强制性的。您可能会成为一名成功的统计学家,并且一生都不需要去学习机器学习!