统计学家学习机器学习重要吗?


22

机器学习是否是任何统计学家熟悉的重要主题?机器学习似乎是统计数据。为什么统计程序(本科生和研究生)不需要机器学习?


1
这里的读者可能对以下主题感兴趣:数据挖掘,统计,机器学习和AI之间有什么区别
gung-恢复莫妮卡

2
不知道,但是我很确定每个进行机器学习的人都应该学习统计数据。
戴夫

Answers:


18

机器学习是高维应用统计的专业领域。这也需要相当多的程序设计背景,这对于一个好的定量程序而言并不是必需的,尤其是在本科级别上,但在某种程度上,在研究生级别上也是如此。它仅适用于统计的预测方面,而数学统计以及推论和描述性应用统计则需要注意。许多课程为学生提供了大量接触机器学习的机会(例如CMU),但是总体而言,工业统计学家很少有机会使用这些工具,除非有一些知名的高科技工作。

虽然我最近看到很多数据科学家和机器学习在就业市场上的位置,我觉得“统计学家”不需要机器学习背景的一般工作描述,但确实需要基本的统计,推理和交流的完美理解:这些实际上应该是研究生统计计划的核心。机器学习和数据科学作为职称和学科也相对较新。如果将其解决问题的策略转向机器学习,如果它在10年或20年内由于效果不佳而主要在商业/制药/生物科学企业中被放弃,那将对那些将统计学解决问题的策略转向机器学习的人们来说是无益的。

最后,我认为机器学习不会极大地增强对统计的扎实理解。统计学从根本上讲是一个跨学科领域,重要的是准确地交流和说服您所在领域的非技术专家(例如医生,CFO或管理人员),为什么选择选择的方法。机器学习是一个利基的,高度技术的领域,在许多应用实践中,它只能保证提供比标准工具和技术更好的性能。有监督和无监督学习中的许多方法被非专家(甚至一些受过较少培训的专家)视为“黑匣子”。当被要求捍卫他们对特定学习方法的选择时,有些解释会落空,并且不会利用任何应用问题引起的情况。


1
您能详细解释一下解释到底意味着什么(例如示例吗?)?
cbeleites支持Monica

10
我无法以对医生有意义的方式描述线性判别分析,支持向量机和GLM LASSO之间的差异。因此,我使用了一些经过仔细调整的协变量,建立了用于乳腺癌风险预测的逻辑回归模型。当出现时,医生们立即对其效果大小进行了启发性讨论。我的“科学”模型的辨别力与更复杂的ML技术(基于验证样本中的引导程序,对AUC的90%CI重叠)非常可比,而且我并不是唯一一个有这种病例报告的人!
AdamO

4
@cbeleites,您是否曾经与充实大学代数数学知识的实体人进行过交流?SVM不会产生医生会理解的效果大小;边距的宽度对它们没有意义,这与它们非常习惯的奇数比率不同。如果您不会说客户的语言,他们不会浪费您的时间和金钱。
StasK

2
@GraemeWalsh妙点。使用结构复杂的预测模型进行预测推理的概念使我非常挣扎,这在结构方程建模或Granger的因果关系中经常发生。我认为在这方面还有很多工作要做。例如,从直觉上讲,我认识到半参数建模和边际结构模型之间有很多相似之处,但是不确定差异在哪里。
AdamO 2013年

2
@Jase,您应该看一下Netflix竞赛获奖者的邀请论文。他们的报告非常相似,即使使用贝叶斯模型在较大的模型空间中平均后验权重,他们也观察到Pca在所有情况下似乎都具有主要的后验权重。这并不是说它们是等效的,但是在简单性和准确性之间存在折衷,这使我更喜欢比ml竞技场提供的模型更简单的模型。可以类似地想到复杂的参数模型如何与非参数模型类似地执行。
AdamO 2014年

14

好吧,让我们谈谈统计学的大象,因为我们从与研究生课程密切合作的一两个人那里学到的东西蒙住了双眼。

统计课程要求他们认为合适的东西,也就是说,在学生有有限的学习时间的情况下,他们希望学生学习的最重要的东西是什么。需要一个狭窄的区域意味着与其他可以被认为同样重要的区域道别。有些程序需要度量理论概率,有些则不需要。有些要求使用外语,但是大多数程序不需要。有些程序将贝叶斯范式视为唯一值得研究的东西,但大多数却没有。有些程序知道对统计学家的最大需求是调查统计数据(至少在美国是如此),但大多数情况并非如此。生物统计学家计划遵循这笔钱,并向SAS +教授易于在医学和药学领域销售的方法。

对于设计农业实验,通过电话调查收集调查数据,验证心理测度表或在GIS中生成疾病发病率地图的人而言,机器学习是计算机科学的抽象艺术,与他们每天使用的统计数据相距甚远基础。这些人都不会从学习支持向量机或随机森林中获得任何直接收益。

总而言之,机器学习是对其他统计领域的很好补充,但我认为,诸如多元正态分布和广义线性模型之类的主流知识必须首先出现。


5

机器学习是关于从数据中获取知识/学习。例如,我使用机器学习算法,可以从DNA微阵列数据(例如癌症或糖尿病)中选择一些可能与特定类型的疾病有关的基因。然后,科学家可以将这些基因(学习的模型)用于将来的早期诊断(对未知样品进行分类)。

机器学习涉及很多统计信息,但是机器学习的某些分支不需要统计信息(例如,遗传编程)。在这些情况下,您唯一需要统计的地方就是查看您使用机器学习构建的模型是否与其他模型在统计上显着不同。

我认为,为统计学家介绍机器学习将是有利的。这将有助于统计学家了解现实世界中应用统计学的情况。但是,这不是强制性的。您可能会成为一名成功的统计学家,并且一生都不需要去学习机器学习!


2
我想说,每次报告模型性能时都需要统计信息。也许是因为我的专业是分析化学,其中一个重要的规则是“没有置信区间的数字是没有结果的”。
cbeleites支持Monica

1
@cbeleites我同意你的看法。我的意思是统计学家不一定是机器学习专家!他们无需学习机器学习就可以
过日子

1
@cbeleites,或者在多模式仿真器的情况下为多个置信区间(例如,Sivia&Skilling Data Analysis)。
alancalvitti
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.