为什么逻辑回归称为机器学习算法?


19

如果我正确理解,则在机器学习算法中,该模型必须从其经验中学习,即,当模型对新情况给出错误的预测时,它必须适应新的观察结果,并且随着时间的推移,模​​型会变得越来越好。我看不到逻辑回归具有这种特征。那么为什么它仍被视为机器学习算法?在“学习”方面,逻辑回归与普通回归之间有何区别?

对于随机森林,我也有同样的问题!

“机器学习”的定义是什么?


4
我为语法清楚地编辑了您的问题,但不确定您的整体意思是什么... Logistic回归属于ML,因为它是一种分类算法。机器学习并不意味着该算法必须是自适应的(尽管有些算法可以从新观察中学习)。适应更多是一种实现选择,通常是通过对联合概率建模的生成式机器学习算法来实现的。
朱巴卜

12
“机器学习”是一个比较宽松的概念。实际上,所有涉及拟合模型的统计程序都可以认为是机器学习。(假设模型拟合可以在一定程度上由计算机完成!)。这就是为什么某些统计学家对“大数据”,“机器学习”等社区感到困惑的原因,使社区困惑于什么是统计数据(不是)!
P.Windridge


1
@ P.Windridge:如果“所有涉及拟合模型的统计程序都可以考虑机器学习”,那么我不明白为什么我们应该区分机器学习和统计
Metariat 2015年

4
@XuanQuangDO我们可能不应该区分机器学习和统计。
Sycorax说恢复莫妮卡

Answers:


21

机器学习不是一个明确定义的术语。

实际上,如果您使用Google的“机器学习定义”,则前两件事会大不相同。

WhatIs.com

机器学习是一种人工智能(AI),它为计算机提供了无需明确编程即可学习的能力。机器学习专注于计算机程序的开发,当暴露于新数据时,计算机程序可以教自己成长和变化。

维基百科

机器学习探索了可以从数据中学习并做出预测的算法的构建和研究。

Logistic回归无疑符合Wikipedia的定义,您可以争论它是否符合WhatIs的定义。

我个人对机器学习的定义与Wikipedia一样,并认为它是统计数据的子集。


1
我同意您的大部分意见,只是它是统计数据的一部分。它有很大的重叠,但是有一些学习类型,例如强化学习,实际上并不能视为统计的子集。
乔治

2
这些不是好的来源。
Neil G

@George对,但让我们面对现实吧,如果您必须对所有数据收集,分析和建模方法应用标签,无论是机器学习,受监督还是不受监督,参数化还是非参数化,它都是统计信息。ML是统计学的专业领域。
RobertF

@RobertF我不同意。机器学习是研究机器如何学习的领域。我同意,机器学习中使用的大多数方法都可以视为统计方法,但是该字段并不是固有的统计子字段。例如,我不认为马尔可夫决策过程被视为统计方法。
乔治,

1
@George离散时间Markov模型是概率模型。一旦您估计了概率模型的未知参数(例如,马尔可夫决策过程),即统计程序的教科书定义。我认为可以称为ML而非统计的主要活动是特定的应用程序,例如建造一个下棋的机器人。底层算法无疑将涉及概率和统计信息,但是该应用程序并不是真正的“统计信息”。有点像基因组学研究如何大量使用统计数据,但是它们绝对是不同的领域。
ahfoss

20

机器学习非常热门,这是金钱所在。人们称他们正在尝试出售目前热销的商品,因此称为“出售”。那可以卖软件。这可能是在试图提升自己的现有员工,准员工,顾问等身份时推销自己。可能是一位试图从公司大佬那里获得预算批准以聘用人员和购买东西,或者说服投资者进行投资的经理。他/她炙手可热的新创业公司,将机器学习作为制作改进的短信应用程序的关键。机器学习和软件都是机器学习专家,因此人们是机器学习专家,因为这是最热门的产品,因此至少在目前如此。

30年前,我进行了各种线性和非线性统计模型拟合。当时不称为机器学习。现在,大多数都可以了。

就像每个人和他们的叔叔现在都是数据“科学家”一样。太热了,据说很性感,所以人们就是这么称呼自己。这就是必须获得预算批准才能雇用某人的招聘经理所列出的职位。因此,不了解数学,概率,统计,优化或数值/浮点计算的第一手知识的人,会使用R或Python包,该包的实现的正确性和鲁棒性令人怀疑,并被称为机器学习算法,应用于他们不了解的数据,并根据自己的经验称自己为数据科学家。

这听上去很轻率,但我相信这是情况的本质。

编辑:以下在2019年9月26日发布了推文:

https://twitter.com/daniela_witten/status/1177294449702928384

Daniela Witten @daniela_witten“当我们筹集资金时,它就是AI,当我们雇用它时,它就是机器学习,而当我们完成工作时,它就是逻辑回归。”

(我不确定是谁提出的,但这是一颗宝石💎)


16
我不会隐瞒我分享其中的一些观点,并对其他观点表示同情。但是,要使它们适合作为SE网站上的答案,他们需要某种支持。显然,这不是通过演绎推理来完成的:它必须来自引证事实和/或引用权威来源。如果可以的话,那就太好了!
ub

10
这是我今天在该网站上阅读的最有趣的帖子,我对此表示同意。但是我必须同意@whuber的意见,即它并不能真正回答当前形式的问题。
Nick Cox

6
作为一个小的澄清。我从事软件开发和恶意的“数据科学”工作。我采访了很多人。没有技能的面试软件开发人员和数据科学人员的比例大致相同。那么数据科学标题有什么特别之处?人们将在所有技术学科中提高自己的技能。我确信编程堆栈交换也有很多相同的抱怨。
马修·德鲁里

7
这感觉更像是怒而不是答案。当然,名称更改,品牌很重要,并且机器学习非常热门(因此,许多自称是从业者的人不知道自己在做什么)。但是,以这种说法来淡化已经在研究和行业中建立并高度相关的领域对我来说似乎很便宜。
马克·克莱森

7
@ MarkL.Stone我了解您的情况,并且我完全同意,这里有许多不称职的热门词汇。但是,我认为这些人找到(并保留!)工作的事实是管理的错误。如果管理人员对分析人员的结果不满意,并且不管个人技能/结果如何,都对所有分析人员一视同仁,那么管理人员与不良分析人员同样无能。任何有现金气味的工作都有庸医,例如吃药。关于数据科学家/机器学习专家的笼统总结就像对所有分析师的不信任一样糟糕。
马克·克莱森

18

正如其他人已经提到的那样,统计,机器学习,人工智能等之间并没有明确的区分,因此可以用任何定义来定义。逻辑回归可能更常被标记为统计数据而不是机器学习,而神经网络通常被标记为机器学习(即使神经网络通常只是逻辑回归模型的集合)。

我认为,机器学习研究的方法通常可以通过以某种形状或形式构建模型来以某种方式从数据中学习。逻辑回归,例如SVM,神经网络,随机森林和许多其他技术,在构建模型时确实会从数据中学习。

如果我理解正确,则在机器学习算法中,该模型必须借鉴其经验

机器学习通常不是这样定义的。并非所有的机器学习方法都会产生可动态适应新数据的模型(此子字段称为在线学习)。

在“学习”方面,逻辑回归与普通回归之间有何区别?

许多回归方法也被归类为机器学习(例如SVM)。


2
请注意,无监督学习仍称为(机器)学习,因此您不必具有任何反馈回路即可将某些东西分类为“机器学习”。
vsz 2015年

这不是该问题的主题,但是此答案也提到了AI和ML之间的分离。我一直很喜欢AI的定义:en.wikipedia.org/wiki/…–
戴维斯·吉田

10

Logistic回归是统计学家DR Cox在1958年发明的,因此早于机器学习领域。逻辑回归不是分类方法,谢天谢地。这是一个直接的概率模型。

如果您认为算法必须具有两个阶段(初始猜测,然后“更正”预测“错误”),请考虑以下事项:Logistic回归在第一时间就正确了。也就是说,在加性模型(在logit中)的空间中。Logistic回归是许多机器学习方法的直接竞争者,并且当预测变量主要起到相加作用时(或当主题知识正确地预先指定了交互作用时),其性能将优于许多机器学习方法。有些人将逻辑回归称为机器学习的一种,但大多数人却没有。您可以调用某些机器学习方法(例如神经网络)统计模型。


1
有趣的是,亚马逊的机器学习服务仅使用一种算法(afaik)
-Logistic

您可以像在线学习中的问题那样以增量方式显示数据。在那种情况下,逻辑回归不会“在第一时间就正确”。我逐步学习。它具有标准损失,并且其更新是梯度下降的标准应用。我所见过的每本机器学习教科书中都有Logistic回归。
Neil G

1
β

@FrankHarrell:好的,这就是对逻辑回归问题的解的最大似然估计的进行方式。
Neil G

Logistic回归可能早在长期 “机器学习”,但它不早于现场:SNARC,于1951年开发,是一个学习机。同样,坚持逻辑回归仅是对概率进行建模,而其本身并不是分类器,这是在分裂头发。按照这种逻辑,神经网络不是分类器(除非输出层由二进制神经元组成,但这将使反向传播成为不可能)。
Igor F.

8

我不得不不同意这里的大多数答案,并声称机器学习具有非常精确的范围,并且与统计有明显的区别。ML是计算机科学的一个子领域,历史悠久,直到最近几年才在其领域之外找到应用。ML的父系领域和应用领域位于人工智能(机器人,模式识别软件等)之内,因此,它不仅是诸如“大数据”或“数据科学”之类的“热门术语”。另一方面,统计(来自“国家”一词)是在社会和经济科学领域发展起来的,它是人类的工具,而不是机器的工具。ML与统计是分开发展的,尽管它开始严重依赖统计原理,但它绝不是统计的一个子领域。ML和统计信息是互补的,而不是重叠的字段。

长答案

顾名思义,机器学习是针对软件/机器的,而统计方法是针对人类的。机器学习和统计都处理对数据的预测,但是,机器学习方法遵循非参数自动方法,而统计方法则需要大量的人工模型构建工作并增加了解释性因素。如果您认为ML算法是在AI研究中开发的,它是一种自动进行预测的方法,该方法应该集成到机器人软件中(例如,用于语音和面部识别),那么这是很有意义的。当“机器”做出预测时,它并不关心其背后的原因。机器无需关心将电子邮件归类为垃圾邮件或非垃圾邮件的模型背后的驱动程序/预测因素,它只关心预测的最佳准确性。黑匣子,这不是因为它们没有模型,而是因为模型是通过算法构造的,并不意味着人类和机器都看不到。

机器学习中的“训练”概念依赖于计算能力,而使用OLS类型的参数估计方法进行统计模型构建则依赖于人类专家的知识。在多元回归方案中,统计学家必须完全依靠专家的判断来选择模型并验证所有必要的统计假设。统计人员的目标不仅是找到模式并将其用于预测,还比ML更深入地了解其数据和问题。

当然,在某些情况下,机器学习和统计学确实会发生重叠,就像许多学科一样。Logistic回归是其中一种情况。最初是一种统计方法,与简单的Perceptron(最基本的ML技术之一)非常相似,因此有人认为它是ML方法。


1
也许您从未听说过非参数统计,非参数统计模型和模型构建?
Mark L. Stone

1
是的,我每天都使用非参数统计信息。我并不是说ML是统计的非参数答案,我只是发现ML方法是非参数的会带来副作用。当参数统计失败时,非参数统计是统计学家的另一选择,但这仍然是专家有意识选择的结果。我可能不太清楚传达自己的观点,对此我深表歉意。
Digio

3
有很多统计学家在做非参数模型,一直在进行统计。您是否听说过经验似然法-由统计学家发明,由统计学家使用并且相当不参量,尽管它也可以半参量方式使用。因此,我不同意您的意见,但并未对您投反对票。
Mark L. Stone

1
马克可以表示不同意,但我仍然不太了解您的反对论点。您是否暗示非参数统计不需要机器学习(我从未否认过)?还是您声称机器学习实际上只是非参数统计的另一个名字(我否认了这一点)?
Digio

3
这里有很多不同意之处。与现代统计工具结合使用时,多变量回归模型可以变得灵活,并且与ML竞争激烈。
Frank Harrell

3

机器学习的定义很松散,您认为回归模型(不仅是逻辑回归模型)还可以从数据中“学习”,这是正确的。我不确定这是否意味着机器学习是真正的统计数据还是统计学确实是机器学习-还是所有这些都没有关系。

ķ

也就是说,某些算法确实会从预测错误中学习-这在强化学习中尤为常见,在强化学习中,主体采取某种行动,观察其结果,然后使用结果来计划未来的行动。例如,机器人吸尘器可以从一个世界模型开始,在该模型中,它会同等地清洁所有位置,然后学会更多地清洁肮脏的地方(通过发现污垢“得到回报”),减少清洁的地方。

可以使用新的训练数据反复更新在线增量算法。这不一定取决于模型的预测准确性,但是我可以想象一个算法,如果例如在给定当前模型的情况下,新数据看起来不太可能,则权重会更积极地更新。有用于逻辑回归的在线版本:例如,McMahan和Streeeter(2012)


3

我终于弄明白了。我现在知道统计模型拟合和机器学习之间的区别。

  • 如果拟合模型(回归),那就是统计模型拟合
  • 如果您学习模型(回归),那就是机器学习

因此,如果您学习逻辑回归,那就是机器学习算法。

评论:对不起,我是个老将,但每当听到有人谈论学习模型或学习回归时,我都会想起Jethro:“我学到了教育”。

线程结束


??? 我还可以学习物流模型,您在说什么?
SmallChess

1
@Student T,如果您适合物流模型,那就是统计模型适合。如果您学习物流模型,那就是机器学习,也就是说,这实际上是不同领域使用的术语的问题。同一事物在不同领域(统计和机器学习)可以称为不同事物。
Mark L. Stone

0

Logistic回归(更通常,GLM)确实属于机器学习!而是,这些方法属于参数化建模。

这两个参数算法(ML)模型使用的数据,但在不同的方式。算法模型从数据中学习预测变量如何映射到被预测变量,但是它们没有对生成观察值的过程进行任何假设(实际上也没有任何其他假设)。他们认为输入和输出变量之间的潜在关系是复杂且未知的,因此,采用数据驱动的方法来了解正在发生的事情,而不是施加形式方程式。

另一方面,参数模型是根据对所研究过程的一些知识而预先确定的,使用数据估计其参数,并做出许多在实践中很少成立的不切实际的假设(例如独立性,均方差和错误的正态分布)。

同样,参数模型(如逻辑回归)是全局模型。它们无法捕获数据中的局部模式(与使用树作为其基本模型的ML方法不同,例如RF或Boosted Trees)。参见本文第5页。作为补救策略,可以使用本地(即非参数)GLM(例如,参见locfit R软件包)。

通常,当对潜在现象的了解很少时,最好采用数据驱动的方法并使用算法建模。例如,如果在输入和输出变量之间的相互作用不是线性的情况下使用逻辑回归,则模型将明显不足,并且不会捕获很多信号。但是,当对过程进行很好的理解时,参数模型的优点是可以提供形式方程式来汇总所有内容,这从理论上讲是强大的。

有关更详细的讨论,请阅读Leo Breiman撰写的出色论文


4
请花一些时间来了解逻辑回归。它没有任何分布假设。它与ML所做的完全相同。ML需要比逻辑回归大得多的样本量。例如,随机森林和SVM可能需要每个候选特征200个事件才能稳定,而逻辑回归通常每个候选变量需要200个事件。
Frank Harrell

2
应该花些时间来了解逻辑回归!它是一个广义线性模型,其中的链接是logit函数。它是参数化的。假设观测值是IID。另外,祝您好运与捕获非线性关系。另外,句子的第二部分是什么意思?对我来说,特征是变量(?)
Antoine

5
有很多关于该主题的好书,我建议您在继续之前先阅读它们。Logistic回归不假设分布相同,实际上假设完全不分布。除非您能证明如何在ML中考虑相关结构,否则这两种方法都是独立的。自1982年以来,就已经使用回归样条来放松逻辑回归中的线性假设。对于此讨论,除非以样条线展开,否则feature = variable。
Frank Harrell

5
布雷曼非常了解事情。他只是没有处理过1982年后逻辑回归的发展,例如惩罚最大似然估计,回归样条和与数据约简方法的组合。Logistic回归的唯一严重局限性是,与其他方法一样,如果人们搜索相互作用并且未预先指定相互作用,那么它就不好寻找正确的相互作用。大多数声称能够做到这一点的方法不会导致可复制的发现。另外,布雷曼(Breiman)使用的伪造模型可以优化不正确的准确性评分。
弗兰克·哈雷尔

3
@Antoine:“为什么逻辑回归与ML根本不同”。请注意,ML中的某些方法(最值得注意的是SVM)与逻辑回归非常相关。除了多重交互作用之外(如弗兰克所写),具有非线性和惩罚作用的逻辑规则与SVM和其他ML方法产生的结果非常相似。它继续让我感到惊讶,有些论文是如何引用基于ML方法和stat101 logistic模型的性能改进来负面描述logistic回归的。
Thomas Speidel

-1

我认为其他答案在识别或多或少是什么机器学习方面做得很好(正如他们指出的那样,这可能是一件模糊的事情)。我将补充说,逻辑回归(及其更一般的多项式版本)在人工神经网络中非常常用(在我选择的任何明智的机器学习定义中都明确地涵盖了这种方法),以进行分类,因此,如果提及对神经网络人进行逻辑回归,他们很可能会在这种情况下立即想到它。在机器学习中与沉重的打击者捆绑在一起是自己成为一种机器学习技术的好方法,我认为在某种程度上这是各种回归技术所发生的事情,尽管我不会将它们从合适的机器学习技术中剔除本身。


请注意,逻辑回归不是分类器,而是直接概率估计方法。
弗兰克·哈雷尔

有关Harrell博士观点的更多信息,请在此处查看我的帖子。stats.stackexchange.com/questions/127042/...
Sycorax说莫妮卡恢复

@FrankHarrell我们也可以使用概率进行分类,因此它实际上是一个分类器。
象棋

@ StudentT4那再正确不过了。If是直接概率估计器。您如何使用逻辑模型的最终结果由您决定。根据您的逻辑,样本均值是一个分类器。
弗兰克·哈雷尔

-1

我认为任何“迭代”过程都可以视为机器学习的一种情况。回归可以认为是机器学习。我们可以手工完成,但是要花很长时间(如果可能的话)。因此,现在我们有了这些程序,机器,它们可以为我们做迭代。它离解决方案越来越近,或者离最佳解决方案或最佳拟合越来越近。因此,“机器学习”。当然,诸如神经网络之类的东西在机器学习方面引起了大多数关注,因此我们通常将机器学习与这些性感的过程相关联。此外,“有监督”和“无监督”机器学习之间的区别在这里也很重要


-2

大多数人都会犯一个非常普遍的错误,我也可以在这里看到它(几乎每个人都做过)。让我详细解释一下... Logistic回归和线性回归模型,既是参数模型,又是机器学习技术。它仅取决于您用来估计模型参数(θ)的方法。查找线性回归和Logistic reg中的模型参数有2种方法。

  1. 梯度下降技术:这里我们首先为参数分配随机值,然后找出成本函数(误差)。在每次迭代中,我们都会更新参数并最小化成本函数。经过一定数量的迭代后,成本函数减小到期望值,而相应的参数值就是我们的最终值。这就是机器学习技术应该做的。因此,如果您使用的是梯度下降技术,则逻辑回归可以称为机器学习技术。

  2. 通过使用最小二乘法:在这里,我们有直接公式来查找我们的参数(需要一些矩阵代数才能理解该公式的推导),该公式被称为正态方程。 最小二乘法

这里b代表参数X是设计矩阵。两种方法都有其自身的优点和局限性。要获取更多详细信息,请按照课程机器学习课程仍在运行。

希望这篇文章对您有所帮助.. :-)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.