两种文化:统计与机器学习?


420

去年,我读了布伦丹·奥康纳Brendan O'Connor)的博客文章,标题为“统计与机器学习,战斗!”。讨论了两个领域之间的一些差异。 安德鲁·盖尔曼对此表示赞同

西蒙·布隆伯格:

从R的命运包中得出:挑衅地说,“机器学习是统计减去对模型和假设的任何检查”。-Brian D. Ripley(关于机器学习和统计之间的区别)useR!2004,维也纳(2004年5月):-)节日的问候!

安德鲁·盖尔曼:

在这种情况下,也许我们应该更频繁地摆脱模型和假设的检验。然后,也许我们能够解决机器学习人员可以解决但我们不能解决的一些问题!

Leo Breiman于2001年发表“统计建模:两种文化”论文指出,统计学家过于依赖数据建模,而机器学习技术正在取得进步,而仅依靠模型的预测准确性

在过去的十年中,统计领域是否因这些批评而发生了变化?不要将两种文化依然存在或已发展统计拥抱机器学习技术如神经网络和支持向量机?


21
谢谢@robin; 制作了CW。尽管我并不完全认为这是“争论的”;有两个领域相互告知(这是事实),问题是在过去十年中它们共同发展了多少。
Shane 2010年

16
添加第三种文化:数据挖掘。机器学习者和数据挖掘者说的语言完全不同。通常,机器学习者甚至都不了解数据挖掘的区别。对他们来说,这只是无监督的学习。他们忽略了数据管理方面,并将流行语数据挖掘也应用于机器学习,进一步加剧了混乱。
2011年


2
Wasserman博客中的有趣讨论。

2
在我看来,实际上并未充分强调机器学习与统计之间的联系。许多计算机科学专业的学生在建国之初就无视统计知识,因为他们不了解在执行机器学习任务中扎实的统计数据至关重要。甚至全球许多CS部门的行动也会很慢。事实证明,这是非常昂贵的错误,我当然希望人们对CS中统计知识的重要性有更多的认识。从很多方面来说,基本上ML =统计。
xji

Answers:


195

我认为您第一个问题的答案是肯定的。纵览过去10年的《统计科学》,《 JASA》,《统计年鉴》,您会发现有关Boosting,SVM和神经网络的论文,尽管目前该领域并不活跃。统计学家已将Valiant和Vapnik的工作挪作他用,但另一方面,计算机科学家已经吸收了Donoho和Talagrand的工作。我认为范围和方法不再有太大区别。我从未接受过布雷曼的论点,即CS人才只对使用任何有效的方法来最大程度地减少损失感兴趣。这种观点受到他参加神经网络会议和咨询工作的影响很大。但是PAC,SVM和Boosting具有坚实的基础。如今,与2001年不同,统计信息更加关注有限样本属性,

但是我认为仍然存在三个重要的差异,这些差异不会很快消失。

  1. 方法论统计学的论文仍然绝大多数都是形式化和演绎性的,而机器学习研究人员则对新方法更为宽容,即使它们没有附带证明。
  2. ML社区主要在会议和相关会议记录中共享新结果和出版物,而统计学家则使用期刊论文。这减慢了恒星研究人员的统计和鉴定工作的进度。前不久,约翰·兰福德(John Langford)对此主题发表精彩的文章
  3. 统计信息仍然涵盖ML暂时不涉及的领域,例如调查设计,抽样,工业统计信息等。

20
很棒的帖子!请注意,Vapnick拥有统计学博士学位。我不确定有很多计算机科学家知道Talagrand这个名字,我敢肯定他们中的0.01%可以通过记忆来记述Talagrand的一个结果:)可以吗?我不知道Valiant的工作:)
罗宾吉拉德

在学术研究和应用方面,我看到了不同的答案。我认为您是在前者的背景下回答的。在应用程序中,我认为最大的区别在于领域的扩展方式。ML通过数据科学渠道接受了所有可以进行编码的人。在统计中,您仍然需要统计或附近领域的正式学位才能进入工作队伍。
阿克萨卡族人

1
抽样调查和工业统计都是数十亿美元的领域(美国统计协会的调查研究方法部分是仅次于生物统计和咨询的第三大领域,后者也包括大量的工业统计学家。关于质量的单独部分,还有一个单独的6西格玛资料和其他质量控制方法,但并非所有方法都完全适用于统计学。两者都严重缺乏统计学家,因为1960年代开始在这些地区工作的婴儿潮一代的劳动力正在退休。
StasK 2015年

4
有些人是在会议上的红地毯上摆姿势而获得工作的,而另一些人则是通过在现实世界中运用这些方法找到工作的。后者的人不具有识别任何种类的星星多大的兴趣; 他们宁愿确定有效的方法,尽管在很多情况下,在给定领域工作几年后,您会一次又一次被冠以相同的名字。
StasK 2015年

为什么采样与ML无关?这与在ML中使用正确的标签训练数据的问题是否十分相似?
Gerrit

169

我看到的社区之间最大的区别是统计强调推理,而机器学习则强调预测。在进行统计时,您想推断生成数据的过程。 当您进行机器学习时,您想知道如何预测一些变量后的未来数据。

当然两者重叠。例如,了解如何生成数据将为您提供一些有关良好预测变量的提示。然而,差异的一个例子是,机器学习从婴儿期开始就解决了p >> n问题(比训练样本更多的特征/变量),而统计信息才刚刚开始认真对待这一问题。为什么?因为当p >> n时,您仍然可以做出良好的预测,但是您不能对哪些变量实际上很重要以及为什么如此做出很好的推断。


13
可以(过度)简化为类似于生成模型和区分模型之间的区别吗?
韦恩

5
“一个人应该直接解决[分类]问题,从不解决更一般的问题作为中间步骤...”-瓦普尼克
韦恩

3
@mbq:我并不是要暗示不能做任何推断,只是这不是主要目标,并且在ML中通常p >> n使得它变得困难得多。
dsimcha 2011年

2
我非常不同意这种观点。看起来错了。诸如递归神经网络之类的事物也试图推断过程,甚至继续产生新序列。
穴居人

2
那么机器人技术呢?概率机器人技术主要集中在推理上,在应用程序中占主导地位。但是与统计数据相比,“风味”仍然不同(与机器/学习相比,工程更多;即实时分析/控制)
GeoMatt22 '16

134

贝叶斯:“您好,机器学习者!”

常客:“您好,机器学习者!”

机器学习:“我听说你们很擅长。这是一些数据。”

F:“是的,让我们写下一个模型,然后计算MLE。”

B:“嘿,F,那不是您昨天告诉我的!我有一些单变量数据,我想估计方差,然后我计算了MLE。然后您猛扑我,告诉我除以而不是在nn1n。”

F:“是的,谢谢你提醒我。我经常认为我应该对所有内容都使用MLE,但是我对无偏估计量感兴趣,等等。”

ML:“恩,这是什么哲理?对我有帮助吗?”

F:“好吧,一个估算器是一个黑盒子,您将数据放入其中,它就会给您一些数字。我们常客并不关心盒子的构造方式,设计原理是什么。例如,我不知道如何推导规则。”÷(n1)

ML:“那么,你在乎什么?”

F:“评估”。

ML:“我喜欢那种声音。”

F:“黑匣子是黑匣子。如果有人声称某个特定的估计量是的无偏估计量,则我们依次尝试多个值,并基于某个假定模型从每个值生成许多​​样本,然后将其推入估计值,然后找到平均估计值。如果我们可以证明期望的估计值等于所有值的真实值,那么我们说它是无偏的。”θ θθθθ

ML:“听起来很棒!听起来常客是务实的人。您可以根据结果来判断每个黑匣子。评估是关键。”

F:“的确如此!我知道你们也采取了类似的方法。交叉验证,或者其他什么?但这对我来说听起来很混乱。”

ML:“凌乱?”

F:“对真实数据测试估计器的想法对我来说很危险。您使用的经验数据可能会遇到各种各样的问题,并且可能无法按照我们同意进行评估的模型进行操作。”

ML:“什么?我以为你说过你证明了一些结果?对于所有,你的估计器总是无偏的。”θ

F:“是的。虽然您的方法可能对评估中使用的一个数据集(包含训练和测试数据的数据集)有效,但我可以证明我的方法将一直有效。”

ML:“对于所有数据集?”

外:“不。”

ML:“所以我的方法已经在一个数据集上进行了交叉验证。您还没有在任何真实的数据集上进行测试吗?”

外:“是的。”

ML:“那使我处于领先地位!我的方法比您的方法更好。它可以90%地预测癌症。只有当整个数据集的行为均符合您所假设的模型时,您的'证明'才有效。”

外:“嗯,是的,我想。”

ML:“并且该间隔的覆盖率为 95%。但是,如果间隔20%的时间仅包含的正确值,我应该不会感到惊讶吗?”θ

F:“是的。除非数据真的是正常的(或其他),否则我的证明是无用的。”

ML:“因此,我的评估更值得信赖和更全面?它仅适用于到目前为止我尝试过的数据集,但至少它们是真实的数据集,疣和所有数据集。您曾经在尝试声称您更'保守'。 ”和“彻底”,并且您对模型检查和相关内容感兴趣。”

B :(插词)“嘿,抱歉,打扰了。我很乐意介入并保持平衡,也许还展示了其他一些问题,但是我真的很喜欢看我的常客同事的蠕动。”

外:“哇!”

ML:“好吧,孩子们。这全都与评估有关。估算器是一个黑匣子。数据传入,数据出来。我们根据估算器在评估中的表现批准或不批准估算器。我们不在乎关于使用的“配方”或“设计原则”。”

F:“是的。但是,对于哪种评估很重要,我们有不同的想法。ML将对真实数据进行训练和测试。而我将进行更通用的评估(因为它涉及广泛适用的证明),并且也更加有限(因为我不知道您的数据集是否实际上是根据我在设计评估时使用的建模假设得出的。)”

ML:“您使用什么评估,B?”

F :(插词)“嘿。别让我发笑。他什么都没有评价。他只是运用主观信念并坚持下去。等等。”

B:“这是常见的解释。但是也可以通过首选的评估来定义贝叶斯主义。然后我们可以使用这样的思想:我们都不关心黑匣子中的内容,我们只关心不同的评估方法。”

B继续说:“经典的例子:医学检查。血液检查的结果是阳性还是阴性。在健康人群中,经常性患者会对阴性结果感兴趣的比例是多少。类似地,生病的人比例是多少得到积极的评价。常客会为正在考虑的每种血液检测方法计算这些,然后建议我们使用得分最高的检测。”

F:“是的。您还想要什么?”

B:“那些获得阳性测试结果的人呢?他们想知道'那些获得阳性结果的人,有多少人会患病?” 和“那些获得负面结果的人中,有多少人健康?” ”

ML:“是的,这似乎是一个更好的问题。”

外:“ HERESY!”

B:“我们再来一次。他不喜欢这要去的地方。”

ML:“这是关于'先验'的,不是吗?”

F:“邪恶”。

B:“无论如何,是的,您是正确的ML。要计算正病患者的比例,您必须执行以下两项操作之一。一种选择是对很多人进行测试,然后观察例如,其中有多少人继续死于这种疾病。”

ML:“这听起来像我所做的。使用培训并测试。”

B:“但是,如果您愿意对人口中的疾病率做出假设,那么您可以提前计算这些数字。常客也可以预先进行计算,但无需使用此人口水平的疾病率。”

F:“更多无基础的假设。”

B:“哦,闭嘴。早些时候,您被发现了。ML发现您和任何人一样都喜欢无根据的假设。除非您的所有假设都成立,否则您的“证明”覆盖率不会在现实世界中堆积。为什么我以前的假设如此不同呢?您称我为疯狂,但您却假装您的假设是保守,可靠,无假设的分析的结果。”

B(续):“无论如何,ML,正如我所说的那样。贝叶斯喜欢另一种评估。我们对基于观测数据的条件更感兴趣,并据此计算估计器的准确性。如果不使用,我们将无法执行此评估但是有趣的是,一旦我们决定采用这种形式的评估,并且一旦选择了我们的先验,我们就会有自动的“配方”来创建合适的估算器。常客没有这样的秘诀。对于复杂模型没有偏倚的估算器,他没有任何自动的方法来构建合适的估算器。”

ML:“您呢?您可以自动建立估算器吗?”

B:“是的。我没有一种自动的方法来创建无偏估计量,因为我认为偏向是评估估计量的一种不好方法。但是鉴于我喜欢的数据条件估计,并且我喜欢可以将先验和可能性联系起来,给我一个估计量。”

ML:“所以无论如何,让我们来回顾一下。我们都有不同的方法来评估我们的方法,而且我们可能永远不会就最好的方法达成一致。”

B:“好吧,这不公平。我们可以将它们混合并匹配。如果我们当中有人拥有良好的标签训练数据,我们可能应该对其进行检验。通常我们所有人都应该检验尽可能多的假设。还有一些'常客'证明可能也很有趣,可以在某些假定的数据生成模型下预测性能。”

F:“是的,让我们在评估时务实。实际上,我将不再痴迷于无限样本属性。我一直在要求科学家给我无限样本,但他们仍然没有这样做。是时候让我再次关注有限的样本了。”

ML:“所以,我们还有最后一个问题。关于如何评估我们的方法,但是我们如何创建方法,我们争论了很多。”

B:“啊。就像我之前提到的那样,我们的贝叶斯方法有更强大的通用方法。它可能很复杂,但是我们总是可以编写某种算法(可能是MCMC的一种简单形式)来从后验中采样。 ”

F(插词):“但是可能会有偏差。”

B:“您的方法也可能如此。我需要提醒您,MLE经常有偏差吗?有时,您很难找到无偏的估计量,即使您确实有一个愚蠢的估计量(对于某些非常复杂的模型),也会说出方差为负。您称其为无偏。是的,无偏,但是有用,不!”

ML:“伙计们。你又在咆哮。让我问你一个问题,F。当你俩都在同一个问题上工作时,你有没有将你的方法的偏见与B方法的偏见进行比较?”

F:“是的。事实上,我不愿意承认这一点,但是B的方法有时具有比我的估算者低的偏见和MSE!”

ML:“这里的教训是,尽管我们对评估有些不同意见,但是我们没有人垄断如何创建具有所需属性的评估器。”

B:“是的,我们应该多读一点彼此的作品。我们可以互相启发评估者。我们可能会发现,其他的评估者在解决我们自己的问题时非常有效。”

F:“而且我应该停止对偏见的痴迷。无偏估计器可能会有荒谬的差异。我想我们所有人都必须对我们在评估方式和希望在估计器中看到的属性做出的选择承担责任。我们不能落后于一种哲学。尝试所有可能的评估。我将继续潜入贝叶斯文学,为评估者提供新的思路!”

B:“实际上,很多人并不真正了解自己的哲学。我什至不确定自己。如果我使用贝叶斯方法,然后证明一些不错的理论结果,那并不意味着我“是一名常客?”常客不在乎上述有关性能的证明,他不在乎配方,如果我代替(或同样)进行一些培训和测试,是否意味着我是机器学习者? ”

ML:“看来我们当时都差不多。”


8
对于最终阅读此回复的读者,我建议添加简短的摘机信息(并在适用的情况下提供适当的引用)。
chl

到目前为止,我拥有-2票,我想采取的行动无济于事:)我认为结尾处,他们都彼此同意,并承认他们可以使用彼此的方法而不必担心彼此的哲学,这是一个“外卖留言”。
亚伦·麦克戴德

10
无需引用。我只是自己整理的。它可能不是很了解,它是基于我多年来对少数同事的论点的(错误)解释。
亚伦·麦克戴德

3
过去我曾见过这样的对话(虽然简短),但我发现它们很有趣。我也对投票否决表示关注,因此,我建议在顶部放一个简短的摘要,以激励读者阅读您的其余文章。
chl 2013年

3
13/10会再次争论
410_Gone,2017年

67

在这样的讨论中,我总是想起著名的肯·汤普森(Ken Thompson)的名言

如有疑问,请使用蛮力。

在这种情况下,当很难理解这些假设时,机器学习就是一种拯救。或者至少比猜测他们的错误要好得多。


2
近年来,随着计算能力的提高以及自动编码器和相关技术的应用,这比以往更加真实。
Firebug

为了解决问题,工程师使用他们以前使用过的公式,技术和程序并确信其成功...通常,这被称为使用蛮力或使用Thumb规则...新公式,技术和方法程序活动是逐步进行的...工程活动是小组活动-工程师,技术员和体力劳动者共同工作。当采用新程序时,需要花费时间来培训技术人员和劳动者。因此,现代化是在进化过程中引入的。
b.sahu '17

64

每个学科的词典是造成比应有的更多分离的原因。

在很多情况下,ML使用一个术语,而Statistics使用另一个术语-但都指的是同一件事-很好,您希望这样做,并且不会引起任何永久性的混淆(例如,功能/属性与期望值)变量,或神经网络/ MLP与投影追踪)。

更麻烦的是,两个学科都使用相同的术语来指代完全不同的概念。

一些例子:

内核功能

在ML中,内核函数用在分类器(例如SVM)中,当然也用在内核计算机中。该术语指的是一个简单函数(余弦,S形,rbf,多项式),用于将非线性可分离的映射到新的输入空间,以便现在在这个新的输入空间中可以线性分离的数据。(相对于使用非线性模型开始)。

在统计中,核函数是用于密度估计以使密度曲线平滑的加权函数。

回归

在ML中,预测算法或返回类标签“分类器”的那些算法的实现(有时)称为机器-例如,支持向量机内核机器。与机器相对应的是回归器,它返回一个分数(连续变量),例如支持向量回归

很少有算法根据模式使用不同的名称-例如,MLP是返回类标签还是连续变量的术语。

在“统计信息,回归”中,如果您尝试基于经验数据构建模型,以基于一个或多个解释性变量或多个变量来预测某些响应变量,那么您将进行回归分析。输出是连续变量还是类标签(例如,逻辑回归)都无关紧要。因此,例如,最小二乘回归是指返回连续值的模型;另一方面,逻辑回归返回概率估计,然后将其离散化为类标签。

偏压

在ML中,算法中的偏差项在概念上与统计学家在回归建模中使用的截距项相同。

在统计中,偏差是非随机误差-即某些现象沿同一方向影响了整个数据集,这又意味着无法通过重新采样或增加样本量来消除这种误差。


19
在统计数据中,偏差与错误不同。错误纯粹是随机的,偏差不是随机的。当您知道估计的期望值不等于真实值时,就会有偏见。
乔里斯·梅斯

2
(@Joris,即使您不知道!听起来也有些陈词滥调,但仅弄清楚是否存在偏差可能是一个相当大的实际问题。仅凭数据,您如何确定估计的回归参数中没有遗漏的变量偏见是一个普遍的误解,认为偏见是数据的特征,而不是估计量的属性。我想知道这是否源于非技术性用法,例如“该调查有偏见!” 统计人员在诸如“误差”之类的术语上也不总是一致的:(估计量的)均方误差包括偏差平方分量,因此“误差”并非“纯粹随机”。
银鱼

2
我认为SVM中的“机器”一词应归功于Vladimir Vapnic的个人品味。如今,我不认为它不用于命名任何其他分类器。
iliasfl 2014年

3
其中许多与我在ML社区中看到的用法不一致。两种类型的内核都得到了广泛使用(尽管希尔伯特空间内核更为常见),“机器”基本上仅用于SVM(如iliasfl所述),“偏差”通常表示(可能以某物为条件),它与拦截器不同。E[X^X]
Dougal 2014年

1
语句“另一方面,逻辑回归返回类标签”。是错的。Logistic回归返回中的连续值,这些值是属于编码为的类的概率的估计。1[0,1]1
random_guy '16

25

机器学习似乎具有务实的基础-对现实的实际观察或模拟。即使在统计数据中,盲目地“检查模型和假设”也可能导致丢弃有用的方法。

例如,几年前,由征信局实施的第一个商业可用(且正在运行)的破产模型是通过针对0-1结果的普通旧线性回归模型创建的。从技术上讲,这是一种不好的方法,但实际上,它是可行的。


4
这类似于使用行星引力模型进行城市交通。我觉得这很荒谬,但实际上实际上可以安静地工作
dassouki 2010年

5
我对最后一句话很感兴趣:“由征信局实施的第一个商业可用(且正在运作)的破产模型是通过针对0-1结果的普通旧线性回归模型创建的”。那是什么型号 我相信第一个模型是Moody's的RiskCalc,甚至第一个版本也是一个逻辑回归模型。该模型的开发人员不是具有ML背景的CS人员,而是计量经济学的人。
令人毛骨悚然的

2
我敢打赌他们在逻辑回归之前使用了判别分析,因为DA在LR之前就被发明了
Neil McGuigan

1
@gappy我正在考虑针对个人征信机构记录的MDS消费者破产模型。RiskCalc是针对公司的信用风险评估。MDS破产模型与当时的FICO风险模型不同,因为目标是破产而不是信用违约(例如FICO的原始评分)。我的评论较少涉及该上下文中的ML的细节(因为它在BK模型首次建立时几乎没有使用-如果有的话),而是与实际有效性不一定完全相关的事实有关。理论上的限制或假设违反。
杰·史蒂文斯

只是好奇为什么从技术上讲这是一种不好的方法。因为它做出了太多简化的假设,而这些假设与现实有很大的不同?
xji

25

过去一年中,我注意到的最大差异是:

  • 机器学习专家没有在基础知识上花费足够的时间,他们中的许多人也不了解最佳决策和正确的准确性评分规则。他们不了解没有假设的预测方法需要比那些更大的样本量。
  • 我们的统计人员花费很少的时间来学习良好的编程习惯和新的计算语言。在计算和采用统计文献中的新方法方面,我们的变化太慢了。

2
另一个需要注意的是,我们统计学家倾向于将自己限制在可以用数学证明有效的方法上(在一组可能荒谬的假设下),特别是涉及出版物时。机器学习人员非常高兴使用在经验上能很好地在一些数据集中使用的方法。结果,我认为机器学习文献的移动速度更快,但也需要更多地筛选。
悬崖AB

24

我不同意这个问题,因为它表明机器学习和统计学是不同的科学或相冲突的科学……当相反的事实成立时!

机器学习广泛使用统计信息...对任何机器学习或数据挖掘软件包的快速调查将揭示聚类技术,例如统计中也发现的k均值。...还将显示降维技术,例如主成分分析也是一种统计技术...甚至逻辑回归。

在我看来,主要区别在于传统上使用统计学来证明先入为主的理论,通常分析是围绕该主要理论进行的。在数据挖掘或机器学习的地方,相反的方法通常是常态,因为我们只想找到一种预测结果的方法,而不是问问题或形成理论,这就是结果!


21

我曾在ASA统计咨询eGroup的另一个论坛上发表过演讲。我的回答更具体地是关于数据挖掘的,但是两者是并驾齐驱的。我们的统计人员对数据挖掘者,计算机科学家和工程师不屑一顾。这是错误的。我认为发生这种情况的部分原因是因为我们看到那些领域的人忽略了他们问题的随机性。一些统计学家称数据挖掘为数据监听或数据钓鱼。有些人确实滥用和滥用了这些方法,但是统计学家在数据挖掘和机器学习方面落伍了,因为我们用广泛的笔触来描绘它们。一些重要的统计结果来自统计领域之外。提升是一个重要的例子。但是像Brieman,Friedman,Hastie,Tibshirani,Efron这样的统计学家,盖尔曼(Gelman)等人成功了,他们的领导将统计学家带入了微阵列和其他大规模推理问题的分析。因此,尽管文化可能永远不会融合在一起,但计算机科学家,工程师和统计学家之间现在有了更多的合作与协作。


19

真正的问题是这个问题被误导了。这不是机器学习与统计,而是与真正的科学进步相对的机器学习。如果机器学习设备在90%的时间内给出正确的预测,但我不明白“为什么”,那么机器学习对整个科学的贡献是什么?想象一下,如果使用机器学习技术来预测行星的位置:会有很多自鸣得意的人认为他们可以使用SVM准确地预测许多事情,但是他们对他们手中的问题有什么真正的了解? ?显然,科学并没有真正通过数值预测来发展,而是通过模型(心理,数学)来发展,这些模型让我们看到的不仅仅是数字。


1
+1这让我想起了经济学中模型的使用。建立计量经济学模型有两个目的。即政策分析和预测。通常,没有人真正在乎预测-最重要的是策略模拟。正如大卫·亨德利(David Hendry)所说的那样,最佳的预测模型不一定是进行政策分析的最佳模型,反之亦然。需要退后一步思考... 该模型的目的是什么?我们想回答什么问题?以及如何与经验发现相适应。
Graeme Walsh

17

统计学习(AKA机器学习)起源于通过“从示例中学习”来创建软件的追求。我们希望计算机执行许多任务(例如,计算机视觉,语音识别,机器人控制),这些任务很难编程,但是很容易提供培训示例。机器学习/统计学习研究社区开发了从这些示例中学习功能的算法。损失功能通常与绩效任务(视觉,语音识别)有关。当然,我们没有理由相信这些任务背后存在任何简单的“模型”(因为否则我们将自己编写该简单程序的代码)。因此,进行统计推断的整个想法没有任何意义。目标是预测准确性,仅此而已。

随着时间的流逝,各种力量开始推动机器学习人员学习更多有关统计的知识。其中之一是需要将背景知识和其他限制因素纳入学习过程。这导致人们考虑生成概率模型,因为它们使通过模型的结构以及模型参数和结构的先验易于合并先验知识。这导致该领域发现了该领域丰富的统计文献。另一个推动力是过度拟合现象的发现。这使ML社区了解了交叉验证和正则化,并且我们再次发现了有关该主题的丰富统计文献。

尽管如此,大多数机器学习工作的重点是创建一个表现出一定性能的系统,而不是对未知过程进行推断。这是机器学习与统计之间的根本区别。


15

理想情况下,在尝试回答他的问题之前,应该对统计学和机器学习都有全面的了解。我是ML的新手,所以如果我说天真,请原谅我。

我在SVM和回归树方面的经验有限。从统计的角度来看,我缺乏ML的感觉是一个完善的推理概念。

ML的推论似乎几乎完全归结于预测准确性,例如通过平均分类误差(MCE)或平衡误差率(BER)或类似指标来衡量。ML具有将数据随机(通常为2:1)分为训练集和测试集的良好习惯。使用训练集拟合模型,并使用测试集评估性能(MCE,BER等)。这是一个很好的实践,并且正在慢慢地进入主流统计。

ML还大量使用了重采样方法(尤其是交叉验证),这种方法的起源似乎是统计数据。

但是,ML似乎缺乏完整的推理概念-超出了预测准确性。这有两个结果。

1)似乎没有意识到任何预测(参数估计等)都会受到随机误差甚至系统误差的影响。统计人员将接受这是预测的必然部分,并将尝试估计误差。统计技术将尝试找到具有最小偏差和随机误差的估计。他们的技术通常由数据处理模型驱动,但并非总是如此(例如,Bootstrap)。

2)在ML中,对于将模型应用于来自相同总体的新数据到新样本的限制似乎没有深入的了解(尽管我之前说过关于训练测试数据集方法的内容)。各种统计技术,包括交叉验证和适用于基于似然方法的惩罚项,可指导统计学家在简约性和模型复杂性之间进行权衡。ML中的此类准则似乎更特别。

我看过ML中的几篇论文,其中使用交叉验证来优化训练数据集上许多模型的拟合-随着模型复杂性的增加,拟合效果越来越好。几乎没有人意识到,精度的微小提高不值得额外的复杂性,这自然会导致过度拟合。然后,将所有这些优化的模型应用于测试集,以检查预测性能并防止过度拟合。上面已经忘记了两件事。预测性能将具有随机成分。其次,针对一个测试集的多个测试将再次导致过度拟合。ML练习者会选择“最佳”模型,而不会完全欣赏他/她从该实验的许多可能输出基因中选出一个樱桃。

我的任何2美分的价值。我们有很多可以互相学习的地方。


2
您对“最佳”模型的评论将由机器学习从业者选择...同样适用于主流统计数据。对于大多数模型选择过程,只需简单地对最终模型进行条件设置,就好像没有对模型空间进行搜索一样(假设模型平均相当新)。因此,我不认为您可以将其用作击败ML实践者的“俱乐部”。
概率概率

作为ML练习者,我无法识别您正在绘制的图片。机器学习文献几乎全部涉及正则化,MDL,贝叶斯,SRM和其他控制模型复杂性的方法。在我看来,统计数据控制复杂性的方法似乎结构性较差,但这对您来说是有偏见的。
Muhammad Alkarouri 2011年

13

这个问题也可以扩展到2015年所谓的数据科学超级文化David Donoho 的《数据科学50年》一书中,他面对着统计学和计算机科学(包括机器学习)的不同观点,例如直接的观点。 (来自不同的人),以便:

  • 拥有数百年统计数据后,为什么需要数据科学?
  • 数据科学是统计。
  • 没有统计的数据科学是可能的,甚至是可取的。
  • 统计是数据科学中最不重要的部分。

并结合了历史,哲学方面的考虑,例如:

令人惊讶的是,当我回顾有关当今数据科学的演讲时,在统计中,统计数据显得非常肤浅,我无法避免注意到作为数据科学教授的基础工具,示例和思想都是实际上是由受过博士学位的人发明的。统计数据,并且在许多情况下,实际使用的软件是由拥有MA或Ph.D的人员开发的。在统计中。几个世纪以来,统计学家积累的全部知识实在是太压倒性的,无法完全记录下来,并且不能隐藏在数据科学的教学,研究和实践中。

这篇文章对辩论产生了许多回应和贡献。


3
这看起来像是一篇论文,值得在最近流行的线程stats.stackexchange.com/questions/195034中提及,我认为那里没有人提及它。
变形虫

1
我认为,如果您在此处发布一个总结本文的新答案,那就太好了。
变形虫

我将并且需要首先为自己总结所有给出的答案
Laurent Duval 2016年

12

我真的不知道机器学习和统计学之间的概念/历史区别是什么,但是我敢肯定这并不那么明显...而且我不真正想知道自己是机器学习者还是统计学家布赖曼论文发表十年后,很多人都...

无论如何,我发现有关模型的预测准确性的问题有趣。我们必须记住,并非总是可以测量模型的准确性,更确切地说,在测量误差时,我们最经常隐式地进行一些建模。

例如,时间序列预测中的平均绝对误差是随时间的平均值,它在假设性能在某种意义上是固定的并显示某些遍历属性的前提下,测量预测中位数的过程的性能。如果(由于某种原因)您需要预测未来50年的地球平均温度,并且您的建模在过去50年中表现良好……这并不意味着……

更一般地说,(如果我还记得的话,这就是所谓的免费午餐),没有建模就无法做任何事情。此外,我认为统计数据正在试图找到问题的答案:“是否有重要意义”,这是科学中非常重要的问题,无法通过学习过程来回答。陈述约翰·图基(他是统计学家吗?):

某些数据与对答案的渴望渴望的结合并不能确保可以从给定的数据体中提取出合理的答案。

希望这可以帮助 !


12

显然,这两个领域显然面临相似但不同的问题,以相似但不相同的方式具有相似但不相同的概念,并且在不同的部门,期刊和会议中工作。

当我阅读Cressie和Read的Power Divergence Statistic时 ,所有这些对我来说都很合适。他们的公式将常用的测试统计量归纳为一个以1指数变化的lambda。有两种特殊情况,lambda = 0和lambda = 1。

计算机科学和统计学沿一个连续体拟合(大概可以包括其他观点)。使用lambda的一个值,您可以得到统计信息圈子中通常引用的统计信息,而使用另一个值,则可以得到Comp Sci圈子中通常引用的统计信息。

统计

  • Lambda = 1
  • 平方和出现很多
  • 方差作为变异性的量度
  • 协方差作为关联度量
  • 卡方统计量作为模型拟合的量度

计算机科学:

  • Lambda = 0
  • 日志总和出现很多
  • 熵作为变异性的量度
  • 相互信息,以衡量联系
  • G平方统计量作为模型拟合的量度

9

您一次运行了精美的计算机算法-并获得了CS会议演示文稿/统计数据(哇,收敛速度真快!)。您将它商业化并运行了100万次-最终破产了(哎呀,为什么我一直都得到无用和不可再现的结果?


3
我已经拒绝了这个答案。尽管这样的问题不可避免地会涉及一些个人意见,但IMO我们仍应争取进行更多实质性的批评。这只是咆哮而已。
安迪W

@AndyW,这当然是我所看到的东西的夸张。未能在统计学上进行超前思考在学术界也是如此:心理学或医学领域的已发表成果的可重复性至多为25%(例如,参见simplestatistics.tumblr.com/post/21326470429/…),而不是名义上的95%。OP希望统计数据能够包含计算机科学。也许计算机科学应该包含一些统计数据,而我给出了原因。
StasK 2012年

5
@StasK我认为您提出了一些重要观点,为什么不尝试使它们变得不太积极一些?
晚会

2
我很喜欢这个简单的答案。
伊恩·沃伯顿

6

在统计学的应用领域中,将重点放在数据生成模型上非常有意义。在设计的实验(例如动物研究,临床试验,工业DOE)中,统计人员可以掌握数据生成模型的含义。ML往往不会在这个非常重要的问题上花费很多时间,因为ML通常专注于另一个基于“大”观测数据的非常重要的预测问题。这并不是说不能将ML应用于“大型”设计的实验,但重要的是要认识到统计数据对于由资源受限的实验引起的“小型”数据问题具有特殊的专业知识。

归根结底,我认为我们都可以同意使用最有效的方法来解决当前的问题。例如,我们可能有一个经过设计的实验,可以产生非常广泛的数据,从而达到预测目的。统计设计原理在这里非常有用,而ML方法对于构建预测变量可能很有用。


4

我认为机器学习应该是统计学下的一个分支,就像我认为化学是物理学下的一个分支一样。

我认为以物理学为灵感的化学观点非常扎实(我想)。我不认为有任何化学反应的物理意义上未知。我认为物理学通过解释我们可以在化学水平上看到的一切而做得非常出色。现在,物理学家的挑战似乎是在无法观察到的极端条件下解释量子水平上的微小谜团。

现在回到机器学习。我认为它应该是统计学下的一个分支(恰好是化学是物理学的一个分支)。

但是在我看来,无论如何,无论是机器学习的当前状态还是统计数据,都还不够成熟,无法完美地实现这一目标。但是从长远来看,我认为一个必须成为另一个的分支。我认为这是机器学习。

我个人认为,“学习”和“分析样本”以估计/推断功能或预测本质上都是统计问题。


3
生物学,心理学和社会学是否也应该是物理学的“分支”?
amoeba

是的。心理学只是涉及高度复杂的生物机器的输入/输出。有一天,我们可能需要将汽车送给心理学家,以诊断其错误(心理学家本身可能是计算机)。
穴居人

1
在我看来,数学是所有人的父亲。从那里我们应用了数学,物理学和其他事物都来自数学。统计就是其中之一。我认为ML不必自己成为一个分支,而可以将其混入统计数据中。但是,如果ML成为自己的分支,我更喜欢它成为统计的子分支。
穴居人

4

摘自Brian Caffo的Coursera课程“现实生活中的数据科学”

机器学习

  • 强调预测
  • 通过预测性能评估结果
  • 担心过拟合但模型本身不复杂
  • 注重表现
  • 通过对新型数据集的性能获得通用性
  • 通常,不指定超级人口模型
  • 对性能和坚固性的关注

传统统计分析

  • 强调超级人口推断
  • 专注于先验假设
  • 简单模型比复杂模型(简约)更可取,即使更复杂的模型表现更好
  • 强调参数的可解释性
  • 统计建模或抽样假设将数据连接到感兴趣的人群
  • 对假设和稳健性的担忧

-5

作为计算机科学家,我总是对统计方法感兴趣。在我看来,对于很多情况下的数据而言,统计分析中使用的统计模型看起来过于复杂!

例如,数据压缩和统计数据之间有很强的联系。基本上,人们需要一个良好的统计模型,该模型能够很好地预测数据,并带来很好的数据压缩率。在计算机科学中,当压缩数据时,统计模型的复杂性和预测的准确性非常重要。没有人希望获得压缩后变得更大的数据文件(包含声音数据或图像数据或视频数据)!

我发现计算机科学中关于统计的动态事物更多,例如Minimum Description LengthNormalized Maximum Likelihood

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.