预测模型:统计数据可能无法击败机器学习吗?[关闭]


14

我目前正在关注一个专注于统计/计量经济学的硕士课程。在我的主人看来,所有学生都必须进行3个月的研究。上周,所有小组都必须向其余的硕士生介绍他们的研究。

几乎每个小组都针对他们的研究主题进行了一些统计建模和一些机器学习建模,并且每一次样本外预测都谈到了简单的机器学习模型击败了非常复杂的统计模型,在过去的3个研究中,每个人都非常努力几个月。无论每个人的统计模型多么出色,一个简单的随机森林几乎总是会得到较低的样本外误差。

我想知道这是否是一个普遍接受的观察?那如果要进行样本外预测,就没有办法击败简单的随机森林或极端梯度增强模型吗?这两种方法使用R包实现起来非常简单,而每个人都想出的所有统计模型都需要大量的技能,知识和精力来进行估算。

您对此有何看法?统计/计量经济学模型的唯一好处是您可以获得解释吗?还是我们的模型不够好,以至于它们不能明显胜过简单的随机森林预测?有没有解决这个问题的论文?


5
这很可能被封闭为“太宽泛”。(希望不是基于“观点”!)我的看法:我认为没有普遍的答案。我的经验是,如果观察值较少,则统计模型会更好,因为在很大程度上采用无模型的方法后,可以强加某种结构。相反,如果有很多观察结果,RF会更好。...
Stephan Kolassa,

4
...另一个问题是对什么进行了精确评估以及如何评估。如果对点预测进行了适当的评估(准确度指标可能令人惊讶地产生误导),则与进行密度预测的情况不同。同样,统计模型可能更适合密度预测,因为您需要更多的数据。
斯蒂芬·科拉萨

1
@StephanKolassa:对于这个问题,我认为一个好的答案(或几个答案集)将构成为什么没有一个通用答案的原因-理论上和实践上-评估评估效果的方式,如何区分统计和机器学习方法,可能有超出预期的目标以及几件我没想到的事情。范围很广;但在我看来,并不能太宽泛,而试图限制它可能只是在排除有用的一般性观点。
Scortchi-恢复莫妮卡

5
我们不想要的是轶事的集合-我敦促用户标记删除答案,而删除答案的意义不外乎例如“我一直发现随机森林胜过逻辑回归”,但是罗word。我们可能对评论有些懈怠,但是长话题将转移到聊天室。
Scortchi-恢复莫妮卡

14
我认为统计和机器学习之间没有有意义的区别。例如,著名的随机森林研究员Leo Breiman是加州大学伯克利分校的统计学教授。在您的轶事中,RF恰好比其他人使用的模型要好,但我认为没有理由总的来说必须做到这一点(另请参阅“免费午餐定理”)。也许这比方法更能说明数据集(甚至学生)。
Sycorax说恢复莫妮卡

Answers:


20

统计建模与机器学习不同。例如,线性回归既是统计模型又是机器学习模型。因此,如果您将线性回归与随机森林进行比较,则只是将简单的机器学习模型与更复杂的机器学习模型进行比较。您没有将统计模型与机器学习模型进行比较。

统计建模提供的不仅仅是解释;它实际上给出了一些总体参数的模型。它取决于一个庞大的数学和理论框架,该框架允许使用诸如系数方差,预测方差和假设检验之类的公式。统计建模的潜在收益比机器学习要大得多,因为您可以对总体参数做出强有力的陈述,而不仅仅是在保留时测量误差,但是要解决统计模型的问题要困难得多。


1
据我了解,您说使用统计数据可以获得更多好处,例如系数的方差,预测的方差和假设检验。但是,仅在预测建模方面(即对某些响应变量进行点预测),您认为统计模型可以击败机器学习模型吗?
dubvice

5
这是答案(+1!)。在我看来(可能还有其他一些观点),统计分析有几种类型:描述性,推论性,预测性,探索性等。机器学习大部分属于预测分析之内,并且大多数不允许您进行推理。关于事物的断言,因此全都归结为“为当前的工作使用正确的工具”(考虑到线性回归示例,它可以用于所有领域,例如估计条件期望,这是一个描述性任务)。
Firebug

2
这听起来像是断言,标准统计建模比机器学习可以更好地进行推理(与预测相对),而不是机器学习,后者可以帮助模型进行解释。如果我们将普通的最小二乘回归与深层神经网络进行比较,这确实是正确的,但是鉴于原始问题专门针对随机森林(推理的一种很好的ML算法),这样的断言有些模糊。
Greenstick

2
这是来自时间序列域的可靠证据,统计模型始终优于机器学习方法:Makridakis “统计和机器学习预测方法:关注点和前进方向”
理查德·哈迪

1
那只是完美的答案。这是一个例子:说您有一种方法可以预测特定疾病患者的生存率。对于如何定义该措施是否在临床上有效,存在国际标准(基本上,在单变量或多变量模型中,该系数不同于0,且p值低于5%时)。尽管我绝对确定,在99%的时间内,具有足够数据的随机森林将是一种更好的模型预测方法。
雷米尼科尔

5

用您的措辞陈述问题是错误的。例如,很大一部分机器学习可以称为统计学习。因此,您的比较就像苹果与水果t。

但是,我将遵循您对其进行构架的方式,并主张以下几点:当涉及预测时,没有某种形式的统计信息就无法进行,因为预测固有地具有随机性(不确定性)。考虑一下:尽管机器学习在某些应用中取得了巨大成功,但在资产价格预测中绝对没有任何值得炫耀的东西。没事 为什么?因为在大多数发达的流动市场中,资产价格本质上是随机的。

您可以整天运行机器学习来观察和了解原子的放射性衰变,并且它永远无法预测下一个原子的衰变时间,仅因为它是随机的。

作为一个有抱负的统计学家,如果您不精通机器学习,那将是愚蠢的,因为它是统计学中最热门的应用之一,当然,除非您确定要进入学术界。任何可能在行业中工作的人都需要掌握ML。统计数据和机器学习人群之间完全没有敌意或竞争。实际上,如果您喜欢编程,您将在ML领域感到宾至如归


2

通常不会,但是在错误指定的情况下可能会是。您正在寻找的问题称为可受理性。如果没有降低风险的决策方法,则可以接受该决策。

所有贝叶斯解决方案都是可以接受的,非贝叶斯解决方案是可以接受的,只要它们在每个样本中都符合贝叶斯解决方案,或者达到极限。可接受的Frequentist或Bayesian解决方案将始终优于ML解决方案,除非它也是可接受的。话虽如此,有一些实用的说法使这一说法正确,但虚无。

首先,贝叶斯选项的先验条件必须是您的真实先验条件,而不是用来使期刊编辑满意的先验分布。其次,许多惯常解决方案是不可接受的,应该使用收缩率估算器代替标准解决方案。许多人不知道斯坦因的引理及其对样本外错误的影响。最后,在许多情况下,ML对于错误指定错误会更健壮。

当您进入决策树及其近亲森林时,除非使用的贝叶斯网类似,否则您不会使用类似的方法。图解决方案中包含大量隐式信息,尤其是有向图。每当您将信息添加到概率或统计过程中时,都将减少结果的可变性并更改认为可接受的内容。

如果从功能组合的角度看机器学习,它只是一个统计解决方案,但使用近似值使该解决方案易于处理。对于贝叶斯解决方案,MCMC可以节省大量的时间,而对于许多ML问题,梯度下降同样可以节省时间。如果您必须构造一个精确的后验积分以对许多ML问题进行积分或使用蛮力,那么在您得到答案之前,太阳系将因热死而死亡。

我的猜测是,对于使用统计信息或不适当的统计信息的人,您的模型指定有误。我曾在一次讲座中讲过,我证明了如果不适当地包裹新生儿,婴儿将飘窗而出;在多项选择上,贝叶斯方法的表现远远超过了频率论方法,以至于频率期望法收支相抵,而贝叶斯方法则使参与者的钱翻了一番。 。现在,我滥用了前者中的统计信息,并利用了后者中Frequentist估计器的不可接受性,但是单纯地使用统计学的人可以轻松地完成我的工作。我只是使它们极端化以使示例显而易见,但我使用了绝对真实的数据。

随机森林是一致的估计量,它们似乎类似于某些贝叶斯过程。由于与内核估计量有联系,因此它们可能非常接近。如果您发现解决方案类型之间的性能存在实质性差异,则说明潜在问题中存在某些您容易误解的问题,如果该问题具有重要意义,那么您确实需要寻找差异的根源,因为这可能也是造成差异的原因。所有型号均未指定的情况。


1

至少出于某些目的,很多机器学习与p-hack可能没有什么不同。

如果您测试所有可能的模型以发现基于历史数据的预测准确度最高(历史预测或组外预测)的模型,则并不一定意味着结果将有助于理解正在发生的事情。但是,可能会发现可能有助于假设的关系。

激发特定的假设然后使用统计方法对其进行检验当然也可以类似地被破解(或类似)。

但是,要点是,如果标准是“基于历史数据的最高预测准确性”,则很可能在人们不了解的某种模型中过分自信,而实际上不知道是什么因素驱动了这些历史结果和/或它们是否对将来有用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.