通常,推理比进行预测难吗?


13

我的问题来自以下事实。我一直在阅读有关机器学习的文章,博客,讲座和书籍。我的印象是,机器学习从业人员似乎对统计学家/计量经济学所关心的许多事情都漠不关心。尤其是,机器学习从业者强调预测准确性胜于推理。

当我在Coursera上学习 Andrew Ng的机器学习时,便出现了这样一个例子。当他讨论简单线性模型时,他没有提及估计量的BLUE属性,也没有提到异方差如何“使”置信区间无效。相反,他专注于梯度下降实现和交叉验证/ ROC曲线的概念。我的计量经济学/统计学类未涵盖这些主题。

另一个例子发生在我参加Kaggle比赛时。我在读别人的代码和想法。很大一部分参与者只是将所有内容都放入了SVM /随机森林/ XGBoost中。

另一个例子是关于逐步模型选择。至少在在线和Kaggle上,该技术得到了广泛使用。许多经典的机器学习教科书也对此进行了介绍,例如《统计学习入门》。但是,根据这个答案(这很有说服力),逐步模型选择面临很多问题,尤其是当涉及到“发现真实模型”时。似乎只有两种可能性:机器学习从业者不知道逐步解决问题,或者机器学习从业者知道,但是他们不在乎。

所以这是我的问题:

  1. (总的来说)机器学习从业者专注于预测,因此不关心统计学家/经济学家关心的很多事情吗?
  2. 如果这是真的,那么背后的原因是什么呢?是因为在某种意义上推论更加困难吗?
  3. 在线上有大量关于机器学习(或预测)的材料。但是,如果我对学习推理感兴趣,可以从网上查阅哪些资源?

更新:我刚刚意识到“推断”一词可能意味着很多东西。我所说的“推论”是指诸如

  1. 做原因或造成?或更笼统地说,之间的因果关系是什么?Y Y X X 1X 2X nXÿÿXX1个X2Xñ

  2. 既然“所有模型都错了”,那么我们的模型与真实模型有多“错”?

  3. 有了样本的信息,我们可以对总体说些什么?我们有多自信?

由于我非常有限的统计知识,我什至不确定这些问题是否属于统计领域。但是这些是机器学习从业者似乎并不关心的问题类型。也许统计学家也不在乎?我不知道。


2
Brian D Ripley在useR上被引用!2004年,“具有挑衅性的说法是,机器学习是统计数据减去对模型和假设的任何检查。” 该短语已成为fortunesCRAN软件包的一部分。这只是说,您并不孤单,印象深刻的数学并不总是机器学习中的主要问题。
伯恩哈德

里奥·布雷曼(Leo Breiman)在其2001年的论文《统计建模:两种文化》中正好解决了这个问题,这是一本很好的读物。
skd

Answers:


6

首先,我对机器学习会有不同的看法。您刚才提到的,吴安德(Andrew Ng)的Coursera演讲和Kaggle竞赛不是机器学习的100%,而是一些针对实际应用的分支。真正的机器学习研究应该是发明随机森林/ SVM /梯度提升模型的工作,该模型非常接近统计/数学。

我同意机器学习从业者比统计学家/经济学家更加关注准确性。人们有理由对获得更好的准确性感兴趣,而不是对“推断真实分布”感兴趣。主要原因是我们收集数据和使用数据的方式在过去几十年中发生了变化。

统计数据已经建立了一百年,但是在过去,没有人会想到您有数十亿的数据用于训练,还有数十亿的数据用于测试。(例如,Internet上的图像数量)。因此,在数据量相对较小的情况下,需要根据领域知识进行假设。或者,您可以考虑“规范化”模型。一旦做出了假设,就存在关于“真实”分布的推断问题。

但是,如果我们仔细考虑一下,是否可以确保这些假设是正确的,并且推论是正确的?我想举George Box:

所有模型都错了,但有些有用

现在,让我们回过头来考虑一种实用的方法,该方法更加强调准确性,而不是假设/推断。当我们拥有大量数据时,这是一种很好的方法。

假设我们正在为所有包含像素级人脸的图像构建模型。首先,很难对十亿个图像的像素级别提出假设:没有人拥有该领域的知识。其次,我们可以考虑所有可能的方式来拟合数据,并且由于数据量巨大,因此我们拥有的所有模型可能都不足够(几乎不可能过度拟合)。

这也是为什么“深度学习/神经网络”再次流行的原因。在大数据的条件下,我们可以选择一个真正复杂的模型,并使其尽可能最佳地拟合,但由于与字词中的所有实际数据相比,我们的计算资源有限,因此我们仍然可以。

最后,尽管我们可能不知道下划线的假设或真实分布,但是如果我们构建的模型在庞大的测试数据集中是好的,那么它们是好的且有价值的。


我想指出“推论”一词在不同社区中具有不同的含义。

  • 在统计界,这通常意味着以参数或非参数方式获取真实分布的信息。
  • 在机器学习社区中,它通常意味着根据给定的分布计算某些概率。有关示例,请参见Murphy的图形模型教程
  • 在机器学习中,人们使用“学习”一词来表示“获取真实分布的参数”,这与统计界的“推理”相似。

因此,您可以看到,本质上,机器学习中有很多人也在做“推理”。

此外,您可能还会想到学术界中的人们喜欢“重塑他们的工作并重新销售”:提出新的用语可能有助于证明这项研究的新颖性。实际上,人工智能,数据挖掘和机器学习之间存在许多重叠。它们与统计和算法设计密切相关。同样,是否进行“推理”没有明确的界限。


3
我可以看到你来自哪里。另一种可能是:预测=专注于观察到的变量,推断=专注于隐藏变量。因此,从某种意义上说,推理正在尝试产生新的测量类型,而预测更多是关于原则上可以观察到的新的测量实现?(当然,这与您的答案是兼容的)
GeoMatt22'9
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.