根据卡茨(M. Katz)在其《多变量分析》(第1.2节,第6页)中的说法,“ 混杂因素与风险因素相关,并且与结果有因果关系。 ”为什么混杂因素必须与结果有因果关系?将混杂因素与结果关联起来就足够了吗?
根据卡茨(M. Katz)在其《多变量分析》(第1.2节,第6页)中的说法,“ 混杂因素与风险因素相关,并且与结果有因果关系。 ”为什么混杂因素必须与结果有因果关系?将混杂因素与结果关联起来就足够了吗?
Answers:
为什么混杂因素必须与结果有因果关系?将混杂因素与结果关联起来就足够了吗?
不,这还不够。
让我们从一个可以同时与结果和治疗相关联的变量开始,但是控制它会影响您的估计。
例如,考虑以下因果图, 取自Pearl,其中 是一个预处理对撞机:
在这种情况下,没有任何混淆,您可以直接估计X对Y的影响。
但是请注意,Z与治疗和结果均相关。但这仍然不是一个混杂因素。实际上,如果您在这种情况下控制Z,则可能会使您的估计偏差。这种情况称为M-bias(由于图结构)。
您不应该控制的另一种相似,更直接的情况是变量是两个处理的结果 和结果 。看看这个简单的对撞机图:
同样,Z与X和Y相关联,但它不是共同创始人。您不应该控制它。
现在,值得注意的是,即使变量与结果有因果关系,也不一定是混杂因素。
在下面的简单图中,让我们以中介者为例:
如果要测量D对Y的总影响,则不应控制介导该影响的事物---在这种情况下,M就是M。 D对Y的总影响。
但要注意,即定义confouding比定义什么更容易混淆因素是。有关confouder定义的更严格讨论,您可能需要阅读VanderWeele和Shpitser撰写的本文。
为什么会这样呢?因为这里的主要概念是混杂本身的概念,而不是混杂因素。对于您的研究问题,您应该问自己“如何消除混淆?” 而不是“此变量是否是混杂因素?”。
最后要说明的是,这些误解仍然很普遍。只是为了说明这一点,请参考2016年的一篇论文:
在没有随机实验或强有力的准实验设计的情况下,因果关系推理需要对预测治疗和结果的所有治疗前变量(也称为混杂协变量)进行适当调节。
如前面示例所示,这是不正确的。混杂因素并不是“所有预言治疗和预后的变量”。对所有这些控件进行控制对于消除混淆可能不是必需的,甚至可能会使您的结果产生偏差。在这里,Pearl有一个很好的关于混淆的概述。