我的问题来自以下事实。我一直在阅读有关机器学习的文章,博客,讲座和书籍。我的印象是,机器学习从业人员似乎对统计学家/计量经济学所关心的许多事情都漠不关心。尤其是,机器学习从业者强调预测准确性胜于推理。
当我在Coursera上学习 Andrew Ng的机器学习时,便出现了这样一个例子。当他讨论简单线性模型时,他没有提及估计量的BLUE属性,也没有提到异方差如何“使”置信区间无效。相反,他专注于梯度下降实现和交叉验证/ ROC曲线的概念。我的计量经济学/统计学类未涵盖这些主题。
另一个例子发生在我参加Kaggle比赛时。我在读别人的代码和想法。很大一部分参与者只是将所有内容都放入了SVM /随机森林/ XGBoost中。
另一个例子是关于逐步模型选择。至少在在线和Kaggle上,该技术得到了广泛使用。许多经典的机器学习教科书也对此进行了介绍,例如《统计学习入门》。但是,根据这个答案(这很有说服力),逐步模型选择面临很多问题,尤其是当涉及到“发现真实模型”时。似乎只有两种可能性:机器学习从业者不知道逐步解决问题,或者机器学习从业者知道,但是他们不在乎。
所以这是我的问题:
- (总的来说)机器学习从业者专注于预测,因此不关心统计学家/经济学家关心的很多事情吗?
- 如果这是真的,那么背后的原因是什么呢?是因为在某种意义上推论更加困难吗?
- 在线上有大量关于机器学习(或预测)的材料。但是,如果我对学习推理感兴趣,可以从网上查阅哪些资源?
更新:我刚刚意识到“推断”一词可能意味着很多东西。我所说的“推论”是指诸如
做原因或造成?或更笼统地说,之间的因果关系是什么?Y Y X X 1,X 2,⋯ ,X n
既然“所有模型都错了”,那么我们的模型与真实模型有多“错”?
有了样本的信息,我们可以对总体说些什么?我们有多自信?
由于我非常有限的统计知识,我什至不确定这些问题是否属于统计领域。但是这些是机器学习从业者似乎并不关心的问题类型。也许统计学家也不在乎?我不知道。
fortunes
CRAN软件包的一部分。这只是说,您并不孤单,印象深刻的数学并不总是机器学习中的主要问题。