什么是“目标最大可能性期望”?


15

我正在尝试了解Mark van der Laan的一些论文。他是伯克利大学的理论统计学家,致力于解决与机器学习显着重叠的问题。对我来说(除深层数学运算之外)一个问题是,他经常最终会使用完全不同的术语来描述熟悉的机器学习方法。他的主要概念之一是“目标最大可能性期望”。

TMLE用于分析非对照实验中的删失观测数据,即使存在混杂因素也可以进行效果评估。我强烈怀疑许多相同的概念在其他领域以其他名称存在,但是我对它的理解还不够深入,无法直接将其与任何事物匹配。

尝试将差距缩小到“计算数据分析”的方法是:

进入数据科学时代:目标学习和统计与计算数据分析的集成

这里是统计学家的简介:

基于目标最大似然的因果推断:第一部分

从第二个开始:

在本文中,我们针对多个时间点干预的因果效应开发了一种特定的针对性最大似然估计器。这涉及使用基于损失的超级学习来获得G计算公式的未知因子的初始估计,然后将目标参数特定的最佳波动函数(最不利的参数子模型)应用于每个估计因子,用最大似然估计来估计波动参数,并迭代初始因子的此更新步骤,直到收敛为止。这个迭代目标最大似然更新步骤使得因果效应的最终估计量在初始估计量是否一致的情况下也是一致的,因此具有两倍的鲁棒性,或最佳波动函数的估计值是一致的。如果正确地指定了因果图中所介入的节点的条件分布,则可以正确地指定最佳波动函数。

用他的术语来说,“超级学习”是具有理论上合理的非负加权方案的整体学习。但是他的意思是“将目标参数特定的最佳波动函数(最不利的参数子模型)应用于每个估计因子”。

或将其分为三个不同的问题,TMLE在机器学习中是否具有并行性?什么是“最不利的参数子模型”?其他领域的“波动函数”是什么?


1
术语可能不熟悉的一个原因是TMLE的目标是估计平均治疗效果-因果推理,而不是预测。当我阅读有关TMLE的论文中的“超级学习者”时,我认为作者从R中的SuperLearner软件包中借用了该术语以构建集成模型。
罗伯特·F

Answers:


24

我同意van der Laan倾向于为已经存在的想法(例如超级学习者)发明新的名字,但是据我所知,TMLE并不是其中之一。这实际上是一个非常聪明的主意,并且在类似的机器学习社区中我什么也没看到(尽管我可能只是一无所知)。这些想法来自半参数有效估计方程的理论,我认为统计学家比ML人要考虑的更多。

这个想法本质上就是这个。假设是真正的数据生成机制,并且对特定的函数感兴趣。与这样的函数相关的通常是一个估计方程P0 Ψ(P0)

iφ(Yiθ)=0,

其中由以某种方式确定,并且包含足以标识。将使得。例如,用解方程可能比估计所有容易得多。从任何意义上有效估计量都渐近地等于求解该方程的方程式的意义上说,该估计方程式是有效的(注意:由于我只是在描述启发式算法,因此我对“有效”一词有些放松。)这种估计方程背后的理论非常优雅,θ=θ(P)PΨφEPφ(Yθ)=0θP0Ψ(P0)这本书是规范的参考书。在这里可以找到“最差子模型”的标准定义。这些不是范德兰(van der Laan)发明的术语。

但是,使用机器学习技术估计通常不会满足该估计方程式。估计的密度是一个内在的难题,可能比估计困难得多,但是机器学习技术通常会继续使用一些估计,然后使用插件估计。范德兰(Van der Laan)会批评此估算器没有针对性,因此可能效率低下-也许它甚至可能不是P0P0Ψ(P0)P0P^Ψ(P^)n-完全一致!尽管如此,范德兰(Van der Laan)意识到了机器学习的力量,并且知道估计他感兴趣的效果最终将需要进行一些密度估计。但是他并不在乎估计本身。密度估计仅出于获得的目的而进行。P0Ψ

TMLE的想法是从初始密度估计,然后考虑这样的新模型:p^

p^1,ϵ=p^exp(ϵ φ(Yθ))p^exp(ϵ φ(yθ)) dy

其中称为波动参数。现在我们在上做最大似然。如果碰巧是MLE,那么可以通过取导数求解有效估计方程来轻松验证,因此对于估计很有效另一方面,如果在MLE处,则我们有一个新的密度估计器,它比更适合数据(毕竟,我们进行了MLE,因此可能性更高)。然后,我们重复此过程并查看ϵϵϵ=0p^Ψϵ0p^1p^

p^2,ϵp^1,ϵ^exp(ϵ φ(Yθ).

依此类推,直到获得满足有效估计方程的极限值为止。


1
“我同意van der Laan倾向于为已经存在的想法发明新名称”-是的,请参阅TMLE的简介:biostats.bepress.com/ucbbiostat/paper252,其中van der Laan使用“随机变粗”来表示可交换性和“实验性治疗分配(ETA)假设”表示阳性。:-)在我们这个领域并不罕见。数据科学家使用诸如回忆,精确度和A / B测试之类的术语,我在大学期间就将其理解为敏感性,正预测值和假设检验。
罗伯特·F

2
@RobertF CAR来自Heitjan和Rubin,是MAR的推广。鲁宾(Rubin)发明了MAR并推广了潜在的结果框架,因此将CAR用作可燃性/可交换性类型假设的全部内容对我来说似乎很公平。
家伙
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.