GLM是统计模型还是机器学习模型?


11

我以为广义线性模型(GLM)将被视为统计模型,但是一位朋友告诉我,一些论文将其归类为一种机器学习技术。哪一个是正确的(或更精确)?任何解释将不胜感激。


1
我认为机器学习通常是统计建模的一种应用,所以我会说两者都是。
joews

Answers:


21

GLM绝对是一种统计模型,但是统计模型和机器学习技术并不是相互排斥的。通常,统计数据更关注于推断参数,而在机器学习中,预测是最终目标。


15

关于预测,统计学和机器学习科学开始从不同角度解决大多数相同的问题。

基本上,统计数据假设数据是由给定的随机模型产生的。因此,从统计的角度出发,假设一个模型,并在各种假设下处理错误,并推断出模型参数和其他问题。

机器学习来自计算机科学的观点。这些模型是算法算法,通常对于数据只需要很少的假设。我们处理假设空间和学习偏见。我发现的关于机器学习的最佳论述包含在汤姆·米切尔(Tom Mitchell)的著作《机器学习》中

有关这两种文化的更详尽和完整的想法,您可以阅读Leo Breiman的论文《统计建模:两种文化》。

但是,必须补充的是,即使这两种科学都是从不同的观点开始的,但现在两者现在都拥有大量的常识和技术。为什么,因为问题相同,但工具不同。所以现在机器学习主要是从统计学的角度来对待的(从机器学习的角度来看哈斯提(Hastie,Tibshirani,Friedman)的《统计学习的要素》一书,并进行统计学处理,也许还有凯文·墨菲(Kevin P.Murphy)的著作《机器学习:A》概率论,仅举几本当今最好的书)。

甚至该领域的发展历史也显示出这种观点融合的好处。我将描述两个事件。

首先是创建CART树,该树由Breiman创建,具有可靠的统计背景。大约在同一时间,Quinlan开发了具有更多计算机科学背景的ID3,C45,See5等决策树套件。现在,这两个树木家族以及诸如套袋和森林之类的合奏方法变得非常相似。

第二个故事是关于提振。最初,它们是由Freund和Shapire在发现AdaBoost时开发的。设计AdaBoost的选择主要是从计算角度出发。即使是作者也不太清楚它为什么起作用。仅仅5年后,布雷曼(Breiman)再次从统计学的角度描述了adaboost模型,并解释了为何可行。从那时起,具有这两种背景的各种知名科学家进一步发展了这些思想,从而产生了一系列的升压算法,例如逻辑升压,梯度升压,平缓升压等。如果没有扎实的统计背景,现在很难考虑进行提振。

广义线性模型是一种统计发展。然而,新的贝叶斯方法将这种算法也应用于机器学习领域。因此,我认为这两种说法都是正确的,因为对其工作方式的解释和处理可能有所不同。


5

除了Ben的答案外,统计模型与机器学习模型之间的细微区别在于,在统计模型中,您需要在构建模型之前明确决定输出方程的结构。建立该模型以计算参数/系数。

以线性模型或GLM为例,

y = a1x1 + a2x2 + a3x3

您的自变量是x1,x2,x3,要确定的系数是a1,a2,a3。您可以在建立模型并计算a1,a2,a3之前以这种方式定义方程式结构。如果您认为y以某种非线性方式与x2相关,则可以尝试类似的方法。

y = a1x1 + a2(x2)^2 + a3x3.

因此,您对输出结构进行了限制。固有的统计模型是线性模型,除非您明确应用诸如S型或核的转换以使其非线性(GLM和SVM)。

在机器学习模型的情况下,您很少指定输出结构和算法,例如决策树本质上是非线性的并且可以高效地工作。

与Ben所指出的相反,机器学习模型不仅涉及预测,它们还进行分类,回归等,可用于进行预测,各种统计模型也可以进行预测。


由于该结构是预先确定的,因此使用该逻辑神经网络是统计模型。我认为尝试在统计数据和机器学习之间定义一个明确的界限是没有可能的,也没有必要。
马克·克莱森

这正是我在机器学习段落中提到“很少”一词的原因。我还没有说过您绝对不会!好吧,对于那些开始探索这些东西的人们来说,很高兴知道统计学习与机器学习之间的细微差别
binga 2014年

我喜欢这个解释。我发现,在统计领域中,人们非常重视数据规范化,特征工程和模型拟合。在ML世界中,尽管它仍然很重要,但人们似乎使用正则化和大量数据来“查找正确的模型”,从而需要较少的前期假设。注意:从这两方面都获得大师级课程是我的感觉,但是如果有人认为我错了,我欢迎其他人纠正我。
user1761806

2

GLM绝对是一种统计模型,而越来越多的统计方法已作为机器学习的技巧应用于工业生产。这几天我最常阅读的荟萃分析是统计领域的一个很好的例子。

在GLM上完美的工业应用可以解释为什么您的朋友告诉您GLM被视为机器学习技术。您可以参考有关的原始文件http://www.kdd.org/kdd2016/papers/files/adf0562-zhangA.pdf

几周前,我实现了一个简化的框架,该框架被视为我的推荐系统在生产场景中的主要框架。非常感谢您给我一些提示,并且可以检查源代码:https : //github.com/PayneJoe/algo-sensetime/blob/master/src/main/scala/GLMM.scala

希望这对您有帮助,美好的一天!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.