机器学习对理解因果关系是否有用,从而对社会科学也没那么有趣?


42

我对机器学习/其他统计预测技术与社会科学家(例如,经济学家)使用的统计类型之间的区别的理解是,经济学家似乎对理解单个或多个变量的影响非常感兴趣-都在幅度并检测该关系是否为因果关系。为此,您最终会用实验和准实验方法等来关注自己。

可以预测的机器学习或统计建模通常会完全忽略这一方面,并​​且在许多情况下并不能给您提供一个变量会影响结果的特定程度(logit和probit似乎都可以)。

一个相关的问题是,在预测新领域时,理论上启发的经济或行为模型在何种程度上比理论模型具有优势?机器学习或面向预测的统计学家会对批评说什么:没有经济模型,您将无法正确预测协变量非常不同的新样本。

我很高兴听到人们从各个角度对此采取的态度。


题。您是要写“理论模型”吗?如果是,那是什么意思?还是您只是说“理论”?
Faheem Mitha

2
您是否正在研究生成模型与判别模型?机器学习倾向于判别模型和技术。
韦恩

@FaheemMitha:“理论上的”:没有理论。
2012年

Answers:


32

恕我直言,在将模型拟合到数据的基本层面上,没有正式的区别可以区分机器学习和统计。在选择模型,将模型拟合到数据以及在某种程度上扩展解释方面,可能存在文化差异。

在典型的例子中,我可以想到我们总是

  • 的模型的的索引集,MiiII
  • 对于每个,模型的未知分量(参数,可能是无限维)。iθiMi

将拟合到数据几乎总是一个数学优化问题,包括寻找未知分量的最佳选择,以使拟合数据(由某些常用函数测量)。MiθiMi

在模型的选择不是标准的,并且有一系列可用的技术。如果模型拟合的目的纯粹是预测性的,则模型选择会尝试获得良好的预测性能,而如果主要目的是解释生成的模型,则可以选择比其他模型更容易解释的模型,即使它们的模型预测能力预计会更差。Mi

所谓的守旧派统计模型选择是基于统计测试,也许与逐步选择策略相结合,而机器学习模型选择通常着重于预期的泛化误差,该误差通常使用交叉验证来估计。然而,模型选择的当前发展和理解确实趋向于更普遍的基础,例如,参见模型选择和模型平均

从模型推断因果关系

而问题的关键是如何,我们可以解释的模型?如果从精心设计的实验中获得的数据且模型足够,则可以将模型中变量变化的影响解释为因果关系,并且如果我们重复实验并干预该特定变量,则是合理的。我们可以期望观察到估计的效果。但是,如果数据是观察性的,则我们不能期望模型中的估计效果与可观察到的干预效果相对应。无论模型是“机器学习模型”还是“经典统计模型”,这都将需要其他假设。

可能受过使用经典统计模型训练的人们关注单变量参数估计和效果大小解释的印象是,因果解释在此框架中比在机器学习框架中更有效。我会说不是。

统计中的因果推断领域并不能真正消除问题,但确实使因果结论赖以存在的假设变得明确。它们被称为不可检验的假设。本文因果推断统计:概述由犹太明珠是一个很好的文件阅读。因果推论的主要贡献是在实际上没有观察到的混杂因素的假设下,收集了用于估计因果效应的方法,否则这是一个主要问题。参见上面珍珠纸中的3.3节。在流行病学的边际结构模型和因果推理中可以找到一个更先进的例子。

一个不可质疑的假设是否成立是一个主题问题。它们完全不可测试,因为我们无法使用数据对其进行测试。为了证明这些假设是合理的,还需要其他参数。

作为机器学习和因果推断相遇的一个例子,Mark van der Laan和Daniel Rubin的“ 目标最大似然学习”中提出的目标最大似然估计的思想通常利用机器学习技术进行非参数估计,然后进行“目标定位”。 ”作为感兴趣的参数。后者很可能是因果解释的参数。超级学习者中的想法严重依赖机器学习技术来估计感兴趣的参数。Mark van der Laan(个人交流)很重要的一点是,经典的,简单的和“可解释的”统计模型经常是错误的,这导致估计量有偏差,并对估计的不确定性过于乐观。


感谢您提供这个令人难以置信的答案...我期待着您提供的所有链接的跟进。我有一个挥之不去的问题是关于技术。是否有机器学习类似工具变量的观测数据?另外-在对变量进行随机化的情况下,机器学习的替代方案与简单的t检验差异之间的相对关系是什么?是否需要机器学习答案技术,它将具有什么优势?
d_a_c321

@dchandler,我对工具变量的经验非常有限,但是我再也没有看到正式的理由来区分机器学习和统计学方法以进行模型拟合,因此,如果可以的话,您可以很好地包括工具变量。我发现与因果关系最有趣的问题是干预的效果。这基本上是一个预测问题,但可能不在观察数据的分布范围内。
NRH

@dchandler,对于第二个问题,我不会像机器学习中的方法与统计中的方法一一对应的问题那样提出。一个 -测试计算来回答这个问题:是否有数据证据拒绝零假设的手段是一样的吗?关于这是否有趣,甚至检验和相应的值是否提供了一个很好的答案,我们可以进行很长的讨论,但我认为询问是否有机器学习替代方案没有任何意义。pttp
NRH

但是,在进行干预之后,机器学习将使用哪种统计数据?实验设计的基本统计数据通常很容易脑死亡(通过t检验进行比较)。在计量经济学中,如果有更多假设,您可以尝试恢复不同的分位数或治疗效果的分布。除了比较手段之外,机器学习分析还能做什么?
d_a_c321 2011年

脑死亡容易的是计算某些东西,而并非那么容易的是证明所需的假设是正确的。马克(Mark)的TMLE方法是估计效应大小(感兴趣的参数,通常是干预效应,可能是观察效应),并提供诚实的置信区间和较少的模型假设假设。通过基于交叉验证的模型选择进行灵活的模型拟合,可避免使用限制性和错误的参数模型。
NRH

10

对于所谓的“因果推断”,有一套(相当有限的)统计工具。这些设计用于实际评估因果关系,并被证明可以正确地做到这一点。非常好,但不适合心脏(或大脑)的温柔。

除此之外,在许多情况下,隐含因果关系的能力更多是设计而不是手头技术的结果:如果您可以控制实验中的所有“变量”,并且每次都看到某些事情发生(仅)更改一个变量,将发生的事情称为更改的事情的“后果”是合理的(不幸的是,在实际研究中,这些极端情况很少真正发生)。另一个直观但合理的推理是基于时间的:如果您随机(但以受控方式)更改变量,而第二天又更改了变量,则因果关系也就迫在眉睫。

无论您使用哪种方法查找哪些变量在何种条件下发生了变化,我的第二段基本上都可以使用,因此至少从理论上讲,机器学习(ML)不会比基于统计的方法差。

免责声明:高度主观的段落

但是,以我的经验来看,机器学习技术常常只是散布在大量数据上,而没有考虑数据的来源或收集方式(即无视设计)。在这些情况下,结果常常会浮出水面,但是很难说出因果关系的有用信息。这当对某些相同的数据使用某种统计上合理的方法时,它们应该完全相同。但是,具有强大统计背景的人员受过训练对于这些问题至关重要,如果一切顺利,将避免这些陷阱。也许仅仅是ML技术的早期(但草率)采用者(通常不是新技术的开发者,而是那些渴望在他们感兴趣的领域与他们“证明”一些结果的人)的心态使ML在此方面享有不良声誉帐户。(请注意,我并不是说统计数据比ML更好,或者所有执行ML的人都是草率的,而执行统计的人则不是)


非常感谢您的回答。我非常喜欢您的解释,即因果关系更多是设计而非技术的结果。我对技术的一个疑问是,是否存在诸如机器学习之类的工具变量。另外-在对变量进行随机化的情况下,机器学习的替代方案与简单的t检验差异之间的相对关系是什么?
d_a_c321

9

我的观点是,经济学和其他社会科学中使用的模型仅在它们在现实世界中具有预测能力的情况下才有用-无法预测现实世界的模型只是一些聪明的数学方法。我的同事最喜欢说的一句话是“数据为王”。

在我看来,您的问题引起了对预测方法的两种批评。首先,您指出机器学习技术产生的模型可能无法解释。其次,您建议社会科学领域的人们所使用的方法比发现机器学习对发现因果关系更有用。

为了解决第一点,我将提供以下计数器参数。当前在机器学习中的流行趋势偏向于一种方法(如SVM和NN),对于外行来说根本不容易理解。这并不意味着所有机器学习技术都具有此属性。例如,古老的C4.5决策树在其发展的最后阶段20年后仍被广泛使用,并产生许多分类规则作为输出。我认为这样的规则比对数优势比之类的概念更适合于解释,但这是主观的主张。无论如何,这些模型都是可以解释的。

在谈到第二点时,我将承认,如果您在一个环境中训练机器学习模型,然后在另一个环境中对其进行测试,则该模型很可能会失败,但是,没有理由先验地认为这也不是正确的。更为传统的模型:如果在一组假设下构建模型,然后在另一组假设下进行评估,则结果会很糟糕。为了从计算机编程中选择一个短语:“垃圾回收,垃圾清理”同样适用于机器学习模型和设计模型。


9

不。因果推理是机器学习研究的一个活跃领域,例如,请参见本次研讨会和研讨会的会议记录。但是,我要指出的是,即使因果推理或模型解释是您的主要兴趣,但同时尝试使用不透明的纯预测方法仍然是一个好主意,这样您就可以知道坚持执行是否会对性能造成重大影响可解释的模型。


1
可互操作的?您可能是可解释的吗?
Faheem Mitha 2013年

4

我不会再次重申其他答案中已经提出的非常好的观点,但是我想补充一些不同的观点。我在这里说的是某种哲学,不一定来自专业经验,而是来自物理科学,复杂系统理论和机器学习的混合背景(而且我不得不承认,很大程度上是本科生的统计)。

机器学习与经典统计方法(据我所知)之间的一个重大区别在于所做出的一系列假设。在经典统计中,有关基本过程和分布的许多假设是固定的,并且倾向于理所当然。但是,在机器学习中,为每个模型明确选择了这些假设,从而导致了更广泛的可能性集,并且可能对所进行的假设有了更大的了解。

我们越来越多地看到,我们周围的系统以复杂的非线性方式运行,并且许多过程不服从经典统计中通常存在的正态性假设。我会说,由于模型假设的灵活性和多样性,因此在这种情况下,机器学习方法通​​常会导致模型更健壮。

短语中内置了强大的模型假设,例如“影响的幅度”,“因果关系”和“一个变量影响结果的程度”。在复杂的系统(例如经济系统)中,这些假设仅在可能的系统状态的特定窗口内有效。在某些可观察性和过程的情况下,此窗口可能很大,导致模型相对健壮。与其他人相比,它可能很小甚至是空的。也许最大的危险是中间立场:一个模型似乎正在起作用,但是当系统转移时,突然而出人意料地失败了。

机器学习不是万能药。相反,我认为这是从我们的观察中寻找新的收集意义的方法,寻找如果我们要有效应对在周围世界中开始意识到的复杂性所需要的新范例。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.