线性回归何时应称为“机器学习”?


90

在最近的一次座谈会上,发言人的摘要声称他们正在使用机器学习。在谈话中,与机器学习有关的唯一事情是他们对数据进行线性回归。在计算5D参数空间中的最佳拟合系数后,他们将一个系统中的这些系数与其他系统中的最佳拟合系数进行了比较。

什么时候是线性回归机器学习,而不是简单地找到一条最佳拟合线?(研究人员的摘要是否引起误解?)

机器学习近来引起了人们的广泛关注,因此做出这样的区分似乎很重要。

我的问题与类似,只是该问题要求定义“线性回归”,而我的问题是何时将线性回归(具有广泛的应用)适当地称为“机器学习”。

澄清说明

我不是在问线性回归何时与机器学习相同。正如某些人指出的那样,单一算法并不构成研究领域。我问一个人使用的算法只是线性回归时,是在说机器学习是正确的。

撇开所有笑话(见评论),我问这的原因之一是因为不道德地说一个人正在做机器学习,如果他们不是真正在做机器学习,那么就在您的名字上加一些金星。(许多科学家计算某些类型的工作最佳拟合线的,但这并不意味着他们正在做机器学习)。在另一方面,也有清楚的情况下,当线性回归用作机器学习的一部分。我正在寻找专家来帮助我对这些情况进行分类。;-)


13
也许您想看一下主题:“ 两种文化:统计与机器学习? ”。
usεr11852

75
每当您想将价目表上的费用加倍时,都应该将回归重命名为“机器学习”。
Sycorax

3
它们是有区别的。学习是一个过程。最合适是一个目标。请参阅下面的答案。坦白说,这两个词没有相同的含义,尽管它们可以出现在相同的上下文中,例如“飞鸟”,一个可以将两者结合在一起,但是飞鸟不是飞翔的,尽管飞翔是为飞鸟的,它是为F的。 -18战斗机也是如此。
卡尔

20
@Sycorax和深度学习,当您想翻两番时
Franck Dernoncourt,2017年

11
@FranckDernoncourt “我是一名数据科学家,正在大数据环境中使用深度学习来解决机器学习问题”,听起来像是LinkedIn个人资料的好标题;)
Tim

Answers:


78

用一个问题回答您的问题:机器学习到底是什么?Trevor Hastie,Robert Tibshirani和Jerome Friedman,《统计学习的元素》机器学习的概率论观点的 Kevin P. Murphy,模式识别和机器学习的 Christopher Bishop ,深度学习的 Ian Goodfellow,Yoshua Bengio和Aaron Courville,以及其他机器学习“圣经”提到线性回归作为机器学习“算法”之一。机器学习在某种程度上是应用统计的流行语,统计与机器学习之间的区别通常是模糊的。


4
的确如此,但是它们在很大程度上是孤立的学科,具有大量不重叠的文献,方法和算法。例如,在当今世界,机器学习,数据和计算机科学专业的毕业生在资金,补助金和工作机会等方面都领先于统计申请人。
Mike Hunter

6
@DJohnson,因此它适用于带有新包装的统计信息,以更高的价格出售..?我认为它很新潮这一事实并没有成为流行语。贝叶斯统计学也有自己的方法,期刊,会议,手册和应用程序,这些方法与古典统计学部分不重叠-是否使它成为一门与统计学不同的学科?
蒂姆

3
对。我忽略了对机器学习从业者的观察,而更笼统地认为,孤立无援,侧重于目标的从业者是各个领域和专业的地方,而不仅仅是机器学习。这是一种职业危害-阅读人的失误-人们对眼前的需求和利益以外的信息视而不见。简历也不例外。
Mike Hunter

23
(+1)我同意没有明确的区别。就我所认为的差异而言,我通常会认为ML更关注预测,而统计数据更关注参数推论(例如,响应面建模的实验设计在ML中不是典型的吗?)。因此,从这个意义上讲,OP的例子-回归系数似乎最受关注-将会更像“统计”(?)
GeoMatt22

3
另请参见Leo Breiman 的两种文化,其观点与@ GeoMatt22相似:ML专注于准确的预测。模型是否正确并不重要。从某种意义上讲,古典统计正在寻找“真实”模型,或者至少在某种程度上可以洞悉生成数据的过程的模型。
彼得

41

线性回归绝对是可以在机器学习中使用的算法。但是,荒谬的还原:拥有Excel副本的任何人都可以拟合线性模型。

即使将自己限制为线性模型,在讨论机器学习时,还需要考虑一些其他事项:

  • 关于业务问题的机器学习可能涉及更多数据。“ 大数据 ”,如果要使用流行语。清理和准备数据可能要比实际建模花费更多的工作。当数据量超过一台计算机的处理能力时,工程挑战与统计挑战一样重要。(经验法则:如果它适合主存,那不是大数据)。
  • 与传统的统计模型相比,机器学习通常涉及更多的解释变量(特征)。也许有几十个,有时甚至数百个,其中一些将是具有多个级别的分类变量。当这些功能可能相互作用时(例如,在交叉效应模型中),要拟合的潜在模型的数量会迅速增长。
  • 机器学习从业人员通常较少关注单个特征的重要性,而更关注从模型中榨取尽可能多的预测能力,无论使用哪种特征组合都可以。(P值与解释相关,而不与预测相关。)
  • 由于具有大量功能,以及采用各种方法设计这些功能,因此手动选择模型变得不可行。我认为,机器学习中的真正挑战是特征(特征工程)的自动选择以及模型规范的其他方面。对于线性模型,可以通过多种方式执行此操作,通常是蛮力的变体。包括逐步回归,反向消除等,所有这些都再次需要大量的计算能力。(第二个经验法则:如果您手动选择功能,则是在进行统计,而不是机器学习)。
  • 当您自动将具有多个功能的多个模型拟合时,过度拟合是一个严重的潜在问题。处理此问题通常涉及某种形式的交叉验证:即,还要进行更多的蛮力计算!

从我的观点来看,简短的答案是机器学习与传统的统计建模有所不同的地方在于蛮力和数值方法在模型选择中的应用,特别是在数据量大且解释变量众多的领域中,着重于预测能力,其次是更强力的模型验证。


2
我确实喜欢这种区别。但是,交叉验证是否曾经在“统计”模型中使用过,还是因为通常是手工完成,所以很少需要交叉验证吗?然后像手工一样将特征工程视为统计数据吗?
josh

3
@josh,是的,可以。但是,如果您查看交叉验证标签,几乎所有问题都与预测建模有关。
david25272

@ david25272我很想知道您如何看待引导程序,.632 +引导程序和置换测试-我一直认为它们比“机器学习”更像是“应用统计数据”,因为它们是如何有动机,但它们类似地成为k折或k省略交叉验证的“蛮力”。我认为L1正则化也可以被视为统计框架内的一种特征选择...
Patrick B.

@Patrick stats.stackexchange.com/questions/18348是使用引导进行模型验证的更好答案,这超出了我的能力。
david25272 '17

@ david25272啊,很抱歉,我的问题更多是您将它们视为“机器学习”技术还是“应用统计”技术,因为它们是出于统计目的,但也是“蛮力”。我熟悉使用偏差校正的引导程序进行模型验证。
Patrick B.

14

我认为Mitchell的定义提供了一种有益的方式,使机器学习的讨论成为基础,这是一种首要原则。如转载于维基百科

据说计算机程序可以从经验E中学习有关某类任务T和性能度量P的信息,如果计算机对T中任务的性能(由P衡量)随经验E的提高而有所提高。

这在某些方面很有帮助。首先,您的直接问题是:回归是机器学习,它的任务是从某些应用程序的预测功能提供估计值。当它遇到更多数据时,它的性能应提高(以均方(或绝对等)得出的误差来衡量)。

其次,它有助于从相关术语中描述机器学习,并将其用作营销流行语。将上述任务与标准推论回归进行对比,其中分析人员解释重要关系的系数。在这里,该程序返回一个摘要:系数,p值等。任务是精心计算。

最后,它有助于统一机器学习子领域,这两个领域都是入门性介绍中(监督,无监督)与增强学习或密度估计等其他领域的统一。(如果您对它们有足够的思考,则每个人都有一个任务,绩效指标和经验概念。)我认为,它提供了更丰富的定义,有助于界定这两个领域,而不必不必要地减少两者。例如,“ ML用于预测,统计用于推理”既忽略了监督学习之外的机器学习技术,也忽略了专注于预测的统计技术。


12

没有法律说橱柜制造商不能使用木桶制造商的锯。

机器学习和统计是模糊的标签,但是如果定义得当,统计和机器学习之间会有很多重叠。这也适用于这两个领域,以及(和单独)的方法的人谁与这两个领域标榜自己。但是就数学而言,机器学习完全在统计领域内。

线性回归是定义非常明确的数学程序。我倾向于将其与统计领域,自称“统计学家”的人以及那些出类拔萃的带有“统计学”标签的人联系起来。SVM(支持向量机)同样是定义非常明确的数学过程,具有一些相似的输入和输出并解决相似的问题。但是,我倾向于将其与机器学习领域以及自称计算机科学家的人们或从事人工智能或机器学习的人们联系起来,这些人通常被视为计算机科学的一门学科。

但是,某些统计学家可能会使用SVM,而某些AI人士会使用逻辑回归。需要明确的是,统计学家或AI研究人员更可能会开发一种方法,而不是实际使用该方法。

我将所有机器学习方法都放在统计领域内。甚至像深度学习,RNN,CNN,LSTM,CRF这样的最新事物。应用统计学家(生物统计学家,农艺师)可能对他们不熟悉。这些都是通常用“机器学习”标记的预测建模方法,很少与统计信息相关联。但是它们预测模型,允许使用统计方法对其进行判断。

最后,逻辑回归必须被视为机器学习的一部分。

但是,是的,我看到并经常分享您对这些词的错误使用的厌恶。线性回归是所谓的统计数据的基本组成部分,以至于称其为“机器学习”是非常奇怪和误导的

为了说明这一点,逻辑回归在数学上与没有隐藏节点的深度学习网络相同,并且逻辑函数作为单个输出节点的激活函数。我不会将逻辑回归称为机器学习方法,但是肯定会在机器学习环境中使用它。

这主要是期望的问题。

答:“我使用机器学习来预测心脏手术后再入院。”

B:“哦,是吗?深度学习?随机森林?!?”

答:“哦,不,没有别的了,只是Logistic回归。”

B:看起来非常失望

就像说,用水清洗窗户时,您正在使用量子化学。是的,可以肯定的是,这在技术上并没有错,但是您所隐含的含义远远超出了所需。

但实际上,这恰恰是文化差异与实质差异。一个单词的含义和与一群人的关联(LR完全不是ML!)与数学和应用程序(LR完全是ML!)相比。


3
在逻辑上和逻辑上,逻辑回归也与SVM非常相似:web.stanford.edu/~hastie/Papers/svmtalk.pdf
Patrick B.

3

普遍的看法是机器学习由四个方面组成:

1)降维

2)聚类

3)分类

4)回归

线性回归是一种回归。一旦训练了模型,就可以像其他任何随机森林回归一样将其用于预测。


尽管可以使用机器学习解决线性回归问题,但实际上存在差异。常见的回归目标是普通最小二乘法,这意味着我们的目标损失函数(残差平方和)应最小化。现在,机器学习将简单地指代使损失函数最小化的方法。
卡尔

因此,从概念上讲,通过梯度下降(学习)进行线性回归会选择越来越好的平方残差求和(损失函数)。基本概念与高级学习算法(例如神经网络)的基本概念相同。这些算法只是将线性模型替换为复杂得多的模型,并相应地替换成复杂得多的成本函数。
卡尔

1
那么OP问题的答案什么时候是线性回归机器学习,而不是简单地找到一条最佳拟合线?当使用机器学习的可定义的元件执行线性回归,像梯度下降,这是再使用机器学习线性回归进行的。
卡尔

5
@Carl,这里是“机器学习”定义的问题。对我而言,如果我们可以使用统计模型,那么该模型将具有预测机器学习的能力。而且,使用哪种方法来找到模型的系数都没有关系。
Akavall

1
我发现Akavall的回复非常清楚。我相信Akavall的问题是您提供的定义是循环的,因为它似乎可以归结为“ Q:何时将X技术算作'机器学习'?A:何时使用可定义的机器学习元素执行X技术'。(不幸的是,我不明白您要说的第二点,所以我无法回应。)
Patrick B.

2

线性回归是一种技术,而机器学习是可以通过不同方式和技术实现的目标。

因此,回归性能是通过它与预期的线/曲线的拟合程度来衡量的,而机器学习是通过它能够以某种必要的手段解决某个问题的程度来衡量的。


2

我认为机器学习和统计推断之间的区别很明显。简而言之,机器学习=对未来观察的预测;统计=说明。

这是我感兴趣的领域(医学)中的一个示例:开发一种药物时,我们会寻找最能解释疾病状态的基因,并以该药物为目标。我们为此使用统计数据。相反,在开发诊断测试时,例如预测药物是否对患者有帮助,目标是严格找到未来结果的最佳预测因子,即使该药物包含许多基因并且过于复杂也难以理解。为此,我们使用机器学习。有多个已发表的实例[1],[2],[3],[4]显示,药物靶标的存在不是治疗结果的良好预测指标,因此有区别。

基于此,可以公平地说,当目标是严格预测未来/以前未曾观察到的结果时,人们正在进行机器学习。如果目标是了解特定现象,那么这就是统计推断,而不是机器学习。正如其他人指出的那样,这与所涉及的方法无关。

要回答您的问题:在您描述的具体研究中,科学家们正在比较不同线性回归模型中的因素角色(权重),而不是比较模型的准确性。因此,称其为推理机学习是不准确的。

[1]西澳Messersmith,安嫩DJ。在大肠癌中靶向EGFR。《新英格兰医学杂志》;2008年;359; 17。

[2] Pogue-Geile KL等。在NSABP试验B-31中预测曲妥珠单抗辅助治疗的获益程度。J Natl癌症研究所;2013; 105:1782-1788。

[3] Vemurafenib的Pazdur R. FDA批准。 https://www.cancer.gov/about-cancer/ treatment / drugs / fda-vemurafenib。2013年7月3日更新。

[4] Ray T.两项ASCO研究表明在NSCLC药物试验中使用MET信号作为预测标记具有挑战性。GenomeWeb,2014年6月11日。


7
我同意机器学习研究更加重视预测而不是参数估计。但这并不是一个清晰的分界线:统计研究中充满了预测方法。
悬崖AB

4
那么,在计算机存在(或广泛可用)之前进行预测的统计学家呢?他们是在应用纸和铅笔的机器学习吗?
蒂姆

1
@Tim:很好的论点。我相信如果他们专注于将来的观察,答案是肯定的,尽管我承认在那些(罕见)情况下,统计学习这个名称会更合适。随着计算机的出现,机器学习一词变得更加流行。关键不是名称,也不是计算机的使用。这是目的明确。我认为,几乎不可能成功地优化对以前看不见的观测结果的准确预测对现象的理解。更好地集中注意力。
ljubomir

4
时间序列预测(对未来观测的预测)长期以来一直是统计(和计量经济学)中的一个普遍问题,因此我不同意基于此的明确区分。
理查德·哈迪

1
这个答案是假的。预测只是机器学习的一小部分。统计人员也做预测。虽然很难在机器学习和统计之间进行区分,但这绝对不是正确的方法。
robguinness

2

调用线性回归机器学习可能很有用,因为这样做通常意味着有关如何解决问题的一些重要事项:

  1. 您认为没有必要检查解释变量后面的因果假设和先验理论。它表明您的模型不是要解释而是要进行预测。这在许多设置中都是完全合理的,例如,根据关键字预测垃圾邮件。实际上,没有很多文献可以用这些词来预测垃圾邮件,而且有太多的词使您无法从每个词的理论意义上进行思考。
  2. 您没有检查变量的显着性或使用p值,而是可能选择了保留集或交叉验证来评估样本外预测性能。如果返回到垃圾邮件示例,这真的是完全有效的,即使您真正关心的只是创建一个可以有效预测垃圾邮件的模型,即使这样做的代价是包括可能无法通过传统重要性检验的变量。

但是,如果您的模型更倾向于解释而不是预测,并且确实检查了模型的理论因果假设,等等,那么是的,将其称为机器学习是很愚蠢的。


2

诚然,对这个问题的任何回答都比客观事实更多的是见解,但我将尽我的逻辑来阐明为什么我认为答案永远不会。任何所谓的机器学习专家或讲师都只能通过表示线性回归来揭示他们的无知。

学术学科的划分更多地是关于社区的划分,而不是方法。科学学科一直在跨学科借鉴方法。同样,在19世纪(发展线性回归时)之前,科学学科没有像今天这样清晰地被划定。因此,特别是当方法是在19世纪或更早的时候开发时,我们应该谨慎地将其分配给特定学科。

话虽如此,人们可以查看一门学科的历史,并合理地得出结论,特定的方法“属于”一个或另一门学科。今天,没有人会说微积分属于物理学领域,尽管作为微积分发明者之一的牛顿绝对想将其应用于物理学。微积分显然属于数学学科,而不是物理学科。这是因为微积分是一种通用的数学方法,可以在物理环境之外完全使用。

出于同样的原因,线性回归属于统计学科,尽管它通常被用作在机器学习环境中将数据拟合至模型的简单示例。就像微积分可以在物理环境之外使用一样,线性回归可以(并且已经)在机器学习环境之外使用。

机器学习指导老师应该明智地指出,线性回归自19世纪末开始使用,很早就出现了现代机器学习概念。他们还应强调,机器学习利用了概率和统计学以及其他学科(例如信息论)中的许多概念。但是,这些概念本身并不代表机器学习或机器学习的“算法”。


1

这是机器,愚蠢!

我既不是统计学家,也不是Big Data(TM)专家。但是,我要说的本质区别是“机器学习”需要“一台机器”。特别是,它意味着代理。结果将不会被人类随意消耗。相反,结果将是一个封闭周期的输入,由此自动化系统可以提高其性能。

封闭系统

这与Sean Easter的回答非常吻合,但是我只想强调一下,在商业应用中,一台机器正在查看结果并对其执行操作。一个经典的例子是CineMatch算法,它是Netflix奖的目标。人们可以查看CineMatch的输出并了解有关电影观众的有趣功能。但这不是为什么它存在。CineMatch的目的是提供一种机制,通过该机制,Netflix 服务器可以向客户推荐他们喜欢的电影。统计模型的输出进入推荐服务,该服务最终会随着客户对电影的评分而产生更多输入,其中一些是根据CineMatch的建议选择的。

开放系统

另一方面,如果研究人员使用一种算法来生成统计结果,并在演示文稿中显示给其他人,则该研究人员绝对不会参与机器学习。对我来说,这显然是人类的学习。该分析是由机器进行的,但它不是在做一个机器学习本身。现在,这是“机器学习”,以至于人脑没有经历所有样本输入,而是“生物学地”得出了统计结果。但是我将其称为“统计”,因为这是自从该领域发明以来统计学家一直在做的事情。

结论

因此,我将通过问:“谁消耗结果?”来回答这个问题。如果答案是:“人类”,那就是“统计数据”。如果答案是:“软件”,那就是“机器学习”。当我们说“软件消耗结果”时,我们并不是说它将其存储在某个地方以供以后检索。我们的意思是,它执行的行为取决于闭环中的结果


8
这是一个合理的观点,但我认为在实践中,机器学习模型通常会传递给人们进行解释和使用。
gung

1
我想说这是因为ML作为一个领域已经产生了统计学家利用的各种有用工具,即使这不是出于营销目的他们自己想要的。;)
割草机男子

我非常同意@gung;与其他答案类似,我同意,这更多地是自称“ ML研究人员”的人们的动机,这绝对不是一个界限。两个反例:推荐系统被认为是机器学习的研究领域,但结果直接馈给了人类。卡尔曼滤波器通常用于自动驾驶导航中,没有人在回路中,但通常被认为是一种统计方法。
悬崖AB

-1

在我看来,当对机器进行编程以使用某些数据来推断某些模型的参数时,可以说是机器学习。

如果线性回归是由机器完成的,则它是合格的。

如果通过手工完成,则不会。

在我看来,取决于某些代理(例如Excel)的流行性迭代改进(如上面的Sean Easter建议)的定义,以某种方式尝试将其与统计分开或取决于对结果的处理方式,导致不一致。


3
因此,如果使用纸和笔计算回归或kNN或决策树,并获得与计算机上计算的结果相同的结果,那么在第一种情况下,它将是机器学习,而在第二种情况下则不是。另一方面,如果您使用计算机随机分配一些值作为模型的“参数”,那么由于它是由机器完成的,因此您有资格将其视为机器学习吗?这个定义似乎没有多大意义……
蒂姆

如果您不使用机器,则很难称其为机器学习。毕竟是机器在学习。我实际上已经部署了通过随机(蒙特卡洛)过程“学习”其参数的模型。但是,我必须承认,此后涉及验证步骤。
伊森·德布尔

2
像支持向量算法机器被称为“机器”由于历史的原因,因为在早期,人们将不得不建立实际的设备/计算机来运行它们(stats.stackexchange.com/questions/261041/...),它有没有给使用“在计算机上运行的算法”。此外,ARIMA之类的时间序列模型不在机器学习范围内,而是统计数据,它们在计算机运行。
蒂姆
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.