恕我直言,在将模型拟合到数据的基本层面上,没有正式的区别可以区分机器学习和统计。在选择模型,将模型拟合到数据以及在某种程度上扩展解释方面,可能存在文化差异。
在典型的例子中,我可以想到我们总是
- 的模型的的索引集,Mii∈II
- 对于每个,模型的未知分量(参数,可能是无限维)。iθiMi
将拟合到数据几乎总是一个数学优化问题,包括寻找未知分量的最佳选择,以使拟合数据(由某些常用函数测量)。MiθiMi
在模型的选择不是标准的,并且有一系列可用的技术。如果模型拟合的目的纯粹是预测性的,则模型选择会尝试获得良好的预测性能,而如果主要目的是解释生成的模型,则可以选择比其他模型更容易解释的模型,即使它们的模型预测能力预计会更差。Mi
所谓的守旧派统计模型选择是基于统计测试,也许与逐步选择策略相结合,而机器学习模型选择通常着重于预期的泛化误差,该误差通常使用交叉验证来估计。然而,模型选择的当前发展和理解确实趋向于更普遍的基础,例如,参见模型选择和模型平均。
从模型推断因果关系
而问题的关键是如何,我们可以解释的模型?如果从精心设计的实验中获得的数据且模型足够,则可以将模型中变量变化的影响解释为因果关系,并且如果我们重复实验并干预该特定变量,则是合理的。我们可以期望观察到估计的效果。但是,如果数据是观察性的,则我们不能期望模型中的估计效果与可观察到的干预效果相对应。无论模型是“机器学习模型”还是“经典统计模型”,这都将需要其他假设。
可能受过使用经典统计模型训练的人们关注单变量参数估计和效果大小解释的印象是,因果解释在此框架中比在机器学习框架中更有效。我会说不是。
统计中的因果推断领域并不能真正消除问题,但确实使因果结论赖以存在的假设变得明确。它们被称为不可检验的假设。本文因果推断统计:概述由犹太明珠是一个很好的文件阅读。因果推论的主要贡献是在实际上没有观察到的混杂因素的假设下,收集了用于估计因果效应的方法,否则这是一个主要问题。参见上面珍珠纸中的3.3节。在流行病学的边际结构模型和因果推理中可以找到一个更先进的例子。
一个不可质疑的假设是否成立是一个主题问题。它们完全不可测试,因为我们无法使用数据对其进行测试。为了证明这些假设是合理的,还需要其他参数。
作为机器学习和因果推断相遇的一个例子,Mark van der Laan和Daniel Rubin的“ 目标最大似然学习”中提出的目标最大似然估计的思想通常利用机器学习技术进行非参数估计,然后进行“目标定位”。 ”作为感兴趣的参数。后者很可能是因果解释的参数。超级学习者中的想法严重依赖机器学习技术来估计感兴趣的参数。Mark van der Laan(个人交流)很重要的一点是,经典的,简单的和“可解释的”统计模型经常是错误的,这导致估计量有偏差,并对估计的不确定性过于乐观。