Answers:
关于预测,统计学和机器学习科学开始从不同角度解决大多数相同的问题。
基本上,统计数据假设数据是由给定的随机模型产生的。因此,从统计的角度出发,假设一个模型,并在各种假设下处理错误,并推断出模型参数和其他问题。
机器学习来自计算机科学的观点。这些模型是算法算法,通常对于数据只需要很少的假设。我们处理假设空间和学习偏见。我发现的关于机器学习的最佳论述包含在汤姆·米切尔(Tom Mitchell)的著作《机器学习》中。
有关这两种文化的更详尽和完整的想法,您可以阅读Leo Breiman的论文《统计建模:两种文化》。
但是,必须补充的是,即使这两种科学都是从不同的观点开始的,但现在两者现在都拥有大量的常识和技术。为什么,因为问题相同,但工具不同。所以现在机器学习主要是从统计学的角度来对待的(从机器学习的角度来看哈斯提(Hastie,Tibshirani,Friedman)的《统计学习的要素》一书,并进行统计学处理,也许还有凯文·墨菲(Kevin P.Murphy)的著作《机器学习:A》概率论,仅举几本当今最好的书)。
甚至该领域的发展历史也显示出这种观点融合的好处。我将描述两个事件。
首先是创建CART树,该树由Breiman创建,具有可靠的统计背景。大约在同一时间,Quinlan开发了具有更多计算机科学背景的ID3,C45,See5等决策树套件。现在,这两个树木家族以及诸如套袋和森林之类的合奏方法变得非常相似。
第二个故事是关于提振。最初,它们是由Freund和Shapire在发现AdaBoost时开发的。设计AdaBoost的选择主要是从计算角度出发。即使是作者也不太清楚它为什么起作用。仅仅5年后,布雷曼(Breiman)再次从统计学的角度描述了adaboost模型,并解释了为何可行。从那时起,具有这两种背景的各种知名科学家进一步发展了这些思想,从而产生了一系列的升压算法,例如逻辑升压,梯度升压,平缓升压等。如果没有扎实的统计背景,现在很难考虑进行提振。
广义线性模型是一种统计发展。然而,新的贝叶斯方法将这种算法也应用于机器学习领域。因此,我认为这两种说法都是正确的,因为对其工作方式的解释和处理可能有所不同。
除了Ben的答案外,统计模型与机器学习模型之间的细微区别在于,在统计模型中,您需要在构建模型之前明确决定输出方程的结构。建立该模型以计算参数/系数。
以线性模型或GLM为例,
y = a1x1 + a2x2 + a3x3
您的自变量是x1,x2,x3,要确定的系数是a1,a2,a3。您可以在建立模型并计算a1,a2,a3之前以这种方式定义方程式结构。如果您认为y以某种非线性方式与x2相关,则可以尝试类似的方法。
y = a1x1 + a2(x2)^2 + a3x3.
因此,您对输出结构进行了限制。固有的统计模型是线性模型,除非您明确应用诸如S型或核的转换以使其非线性(GLM和SVM)。
在机器学习模型的情况下,您很少指定输出结构和算法,例如决策树本质上是非线性的并且可以高效地工作。
与Ben所指出的相反,机器学习模型不仅涉及预测,它们还进行分类,回归等,可用于进行预测,各种统计模型也可以进行预测。
GLM绝对是一种统计模型,而越来越多的统计方法已作为机器学习的技巧应用于工业生产。这几天我最常阅读的荟萃分析是统计领域的一个很好的例子。
在GLM上完美的工业应用可以解释为什么您的朋友告诉您GLM被视为机器学习技术。您可以参考有关的原始文件http://www.kdd.org/kdd2016/papers/files/adf0562-zhangA.pdf。
几周前,我实现了一个简化的框架,该框架被视为我的推荐系统在生产场景中的主要框架。非常感谢您给我一些提示,并且可以检查源代码:https : //github.com/PayneJoe/algo-sensetime/blob/master/src/main/scala/GLMM.scala
希望这对您有帮助,美好的一天!