为什么倾向得分匹配可用于因果推理？

13

倾向得分匹配用于观察研究中的因果推理（请参阅Rosenbaum / Rubin论文）。它为何起作用的简单直觉是什么？

换句话说，为什么如果我们确定两组参加治疗的可能性相等，混杂的影响就消失了，我们可以使用结果得出关于治疗的因果结论？

— 最大值
source

8

我的观点可能不受欢迎，但我认为说PSM允许您进行因果推断，这有点困难。是的，这是比只对少数几个变量进行“粗略”匹配更好的匹配方法，但是到最后，您仍然只对那些可观察到的变量进行匹配。您可能仍然接受内源性治疗，但是您假设匹配后，治疗是外源性的。但是话又说回来，与鲁宾这样的人相比，我是一个没人:)

— 马奎斯·德·卡拉巴斯

5

有些人不同意罗森鲍姆和鲁宾。Gary King非常有效地指出，使用PSM进行匹配的结果不如基于Mahalanobis距离的匹配结果。在这里看到他的论文...... gking.harvard.edu/files/gking/files/psnot.pdf?m=1456683191 此外，本次网络研讨会提供了更令人信服的证据...... methods-colloquium.com/...

— 迈克·亨特

4

从理论上讲，如果满足所有假设，则可以使用鲁宾的因果模型进行因果推断。但是，当然，魔鬼总是存在于假设的细节中，对我而言，没有观察到的混杂因素的假设通常是一个艰难的过程。实际上，这是无法证明的。但是您至少可以执行敏感性分析，以确定如果您没有观察到混杂因素，结论会发生什么变化。

— StatsStudent

5

好点@DJohnson。Judea Pearl，Ian Shrier和Arvid Sjolander等人也对鲁宾的因果推理潜在结果框架持批评态度，因为它们有可能通过所谓的“对撞机”引入“ M偏见”。它们是有趣的读物，应该补充鲁宾的任何读物。

— StatsStudent

12

我将尝试给您一个直观的理解，而很少强调数学。

观测数据和由此产生的分析的主要问题是混淆。当变量不仅影响分配的治疗，而且影响结果时，都会发生混淆。进行随机实验时，受试者会随机接受治疗，因此平均而言，分配给每种疗法的受试者在协变量（年龄，种族，性别等）方面应该相似。由于这种随机化，结果的差异不太可能（特别是在大样本中）归因于任何协变量，而是归因于所应用的治疗，因为平均而言，治疗组中的协变量相似。

另一方面，对于观察数据，没有随机的机制将受试者分配给治疗。例如，进行一项研究，以检查与标准外科手术相比，新心脏手术后患者的存活率。通常，出于道德原因，不能将患者随机分配到每种程序。结果，患者和医生通常会由于与其协变量有关的多种原因而自行选择其中一种治疗方法。例如，如果您年纪大了，新手术可能会有些冒险，结果医生可能会向年轻患者推荐更多新疗法。如果发生这种情况，并查看存活率，则新疗法可能看起来更有效，但这会产生误导，因为将年轻患者分配给该治疗，而年轻患者往往会更长寿，其他所有条件都一样。这是倾向得分派上用场的地方。

倾向得分有助于解决因果推理的基本问题-由于治疗对象的非随机性，您可能会感到困惑，这可能是您看到的“效果”的原因，而不仅仅是干预或治疗。如果您能够以某种方式修改您的分析，以使各治疗组之间的协变量（例如年龄，性别，性别，健康状况）达到“平衡”，则您将有充分的证据表明结果的差异是由于干预/治疗引起的而不是这些协变量。倾向得分可确定每个受试者在给定的观察到的共晶石的情况下被分配到他们接受的治疗的概率。如果您随后根据这些概率（倾向得分）进行匹配，

您可能会问为什么在协变量上不完全匹配（例如，确保将治疗1的40岁健康状况良好的男性与治疗2的40岁健康状况良好的男性匹配）？对于大型样本和少量协变量，这很好用，但是当样本量很小且协变量的数量甚至适中时，几乎变得不可能做（请参阅“交叉验证”维度的诅咒，了解为什么如此）。

现在，所有这些都说明，倾向得分的致命弱点是没有观察不到混杂因素的假设。该假设表明，您没有在调整中包括任何可能造成混淆的协变量。直观地讲，这背后的原因是，如果您在创建倾向得分时没有包括混杂因素，那么如何进行调整？还存在其他假设，例如稳定的单位治疗值假设，该假设指出分配给一个受试者的治疗不会影响其他受试者的潜在结果。

— 统计学生
source

7

从严格的意义上讲，倾向评分调整与因果推理的关系与回归建模无关。倾向评分的唯一真正区别是，与样本量可能允许纳入回归模型相比，倾向评分更易于调整以观察更多的潜在混杂因素。倾向得分调整（在大多数情况下，最好通过协变量调整完成，最好在logit PS中使用样条线）是一种数据减少技术，其减少沿一条重要轴进行-混淆。但是，它不能处理结果的异质性（敏感性偏差），因此，即使在使用倾向性时，您也必须针对重要的重要协变量进行调整（另请参阅与优势和风险比的不相容性相关的问题）。

倾向得分匹配可能会排除许多观察结果，因此效率极低。我认为排除相关观察结果的任何方法都是有问题的。匹配的真正问题在于，由于某些需要进行1：1匹配的需求，它排除了容易匹配的观测值，并且大多数匹配算法都依赖于观测顺序。

请注意，在进行标准回归调整以混淆检查和排除非重叠区域时，这非常容易。倾向得分用户被教导这样做，而回归建模者不这样做的唯一原因是他们没有被教导。

倾向评分分析隐藏了与暴露的任何相互作用，倾向评分匹配隐藏了PS与治疗效果之间的可能关系。

对于PS，已经进行了灵敏度（对于无法衡量的混杂因素）分析，但是使用标准回归模型更容易进行分析。

如果您使用灵活的回归方法估算PS（例如，不假设任何连续变量线性地起作用），您甚至不需要检查平衡- 必须有平衡，否则一开始就没有正确指定PS回归模型。您只需要检查是否没有重叠。假定没有从倾向模型中忽略的重要相互作用。匹配采用相同的假设。

— 弗兰克·哈雷尔
source

3

我建议您查看大多数无害计量经济学-他们在直觉上对此有很好的解释。

您要解决的问题是选择偏向。如果变量与潜在结果和接受治疗的可能性相关，那么如果您发现治疗的预期结果好于未治疗的预期结果，则可能是一个虚假的发现，因为被治疗者倾向于具有更高的并因此具有更高的。出现问题是因为使与处理相关。 $x_i$ $y_{0i},y_{1i}$ $x$ $y_{0i},y_{1i}$ $x$ $y_{0i},y_{1i}$

这个问题可以通过控制来解决。如果我们认为潜在结果与变量之间的关系是线性的，我们可以通过将包含在回归变量中进行处理来实现，而哑变量与相互作用。当然，线性回归是灵活的，因为我们也可以包含函数。但是，如果我们不想强加一个功能形式怎么办？然后我们需要使用非参数方法：匹配。 $x$ $x$ $x$ $x$ $x$

通过匹配，我们比较了具有相似处理和未处理的观测值。我们通过对所有已处理和未处理的观测值的所有值（或较小范围的值或“桶”）的处理效果进行估算来得出此结论。如果我们没有很多这样的值或存储桶，尤其是是高维向量，那么很难找到彼此接近的观测值，那么将这个空间投影到一个维上将很有帮助。 $x$ $x$ $x$ $x$

这就是倾向得分匹配的作用。如果与给定治疗不相关，那么事实证明它们也与给定治疗不相关，其中是给定的治疗概率，即倾向得分的。 $y_{0i},y_{1i}$ $x_i$ $p(x_i)$ $p(x)$ $x$ $x$

这是您的直觉：如果我们发现倾向得分非常相似的子样本，则对于该子样本，已处理组和未处理组与无关。每个观察结果均可能被治疗或未治疗；这意味着任何处理过的观察都可能来自子样本中的任何值。由于是决定模型中潜在结果的因素，因此这意味着对于该子样本，潜在结果 $p(x)$ $x$ $x$ $x$ $y_{0i},y_{1i}$ 与治疗无关。此条件确保处理后和未处理之间的子样本平均结局差异是对该子样本的平均治疗效果的一致估计，即

E [y_{i} | Treated, p (x)] - E [y_{i} | Untreated, p (x)]

$E[y_i|\text{Treated},p(x)] - E[y_i|\text{Untreated},p(x)]$

是对当地平均治疗效果的一致估计。

进一步阅读：

我们是否应该在实践中真正使用倾向得分匹配？

比较匹配和回归的相关问题

— Nfernand
source

1

它“起作用”的原因与回归“起作用”的原因相同-您要控制所有混杂因素。

您可以通过完全指定的回归模型（可能包含许多混杂变量）或仅包含一个变量的回归模型（倾向评分（可能是也可能不是由那些相同的混杂因素组成的同等复杂的模型））来完成这种分析控制。您可以坚持使用回归与倾向得分进行比较，也可以比较相似组中的响应，在相似组中，相似度由倾向得分定义。从本质上讲，您正在做相同的事情，但是有些人认为后一种方法更好地突出了手头的因果任务。

更新以下反馈

我对解释倾向得分匹配为何起作用的直觉的想法是解释倾向得分定理，即我认为我可以使用回归来完成。但是，正如@StatsStudent所说，回归使推断数据中从未发生过的治疗和对照之间的比较变得容易。如果这就是为什么倾向得分匹配“有效”的部分原因，那么我的答案是不完整的。我咨询了反事实和因果推论

Y (0), Y (1) ⊥ T | X \Rightarrow Y (0), Y (1) ⊥ T | p (X),

$Y(0), Y(1) \perp T \, | \, X \Rightarrow Y(0), Y(1) \perp T \, | \, p(X),$ 并阅读了一种称为“卡尺匹配”的最近邻居匹配版本（第108页），其中治疗和最近的控制案例的倾向得分必须在某个最大距离之内，从而导致某些治疗案例不匹配。在这种情况下，该方法仍然可以通过使用非参数类似物进行回归来调整倾向得分来工作，但它也可以清楚地表明仅凭数据无法知道的内容（没有可以推论的模型），并可以重新定义给出可用数据的因果数量。

— 本·奥戈里克
source

1

这个答案注定是不受欢迎的，因为它通过将倾向评分方法与回归（因果圈中的肮脏词）进行比较来降低其成本。但是最主要的答案承认“倾向得分的致命弱点是没有没有观察到的混杂因素的假设。” 那是一个很大的致命弱点。假设满足条件，并且我已经获得了宇宙中所有混杂因素的数据集。帮助我理解为什么回归无法揭示因果关系，而倾向得分匹配却可以。

— Ben Ogorek

1

回归常常有问题的原因是因为回归的结果是外推的。通过倾向得分，可以确保在协变量平衡检查期间各治疗组之间有足够的混杂因素重叠。在回归中不一定是这种情况，并且会导致估算结果不准确，因为没有标准的诊断检查可以告诉您回归模型在外推。这就是为什么我通常运行倾向得分平衡检查的原因，即使我只是在运行回归模型并且不打算自己使用倾向得分。

— StatsStudent '16