随机分配:为什么要打扰?


9

随机分配很有价值,因为它可以确保治疗与潜在结果的独立性。这就是如何导致对平均治疗效果的无偏估计。但是其他分配方案也可以系统地确保治疗与潜在结果的独立性。那么为什么我们需要随机分配呢?换句话说,与非随机分配方案相比,随机分配又有什么优点呢?

令为治疗分配的向量,其中每个元素为0(未分配给治疗的单位)或1(分配给治疗的单位)。在一个JASA制品,安格里斯特,Imbens,和Rubin(1996,446-47)说治疗分配是随机的,如果表示所有\ mathbf {c}\ mathbf {c'},使得\ iota ^ T \ mathbf {c} = \ iota ^ T \ mathbf {c'},其中\ iota是一个所有元素等于1的列向量。ZZiPr(Z=c)=Pr(Z=c)ccιTc=ιTcι

换句话说,如果包括m个治疗分配的任何分配向量与包括m个治疗分配的任何其他向量一样有可能,则分配Zi是随机的。mm

但是,为了确保潜在结果与治疗分配的独立性,足以确保研究中的每个单元都具有相等的分配给治疗的可能性。即使大多数治疗分配向量的选择概率为零,也很容易发生这种情况。即,即使在非随机分配下也可能发生。

这是一个例子。我们想用四个单元运行一个实验,其中两个单元将被正确处理。有六个可能的分配向量:

  1. 1100
  2. 1010
  3. 1001
  4. 0110
  5. 0101
  6. 0011

每个数字中的第一个数字表示是否已治疗第一个单元,第二个数字表示是否已治疗第二个单元,依此类推。

假设我们进行了一个实验,其中排除了赋值向量3和4的可能性,但是其中每个其他向量的选择机会均等(25%)。从AIR的意义上讲,该方案不是随机分配。但可以预料的是,这将导致平均治疗效果的无偏估计。那绝不是偶然的。任何给予受试者相等分配给治疗可能性的分配方案,将允许对ATE进行无偏估计。

那么:为什么我们需要AIR的随机分配?我的论点植根于随机推理。如果有人以基于模型的推理来思考,那么AIR的定义似乎更可辩护吗?


3
我还没有阅读Angrist等人的文章,所以也许我遗漏了一些东西,但是我对您的措辞有个疑问。我们不会使用随机分配来确保治疗与潜在结果无关。在真实的实验中,治疗是否独立于结果取决于治疗与结果之间是否存在直接因果关系。而是,随机分配可确保治疗与潜伏变量(或潜在的混杂因素)无关。结果可能是由我们希望排除的治疗方法以外的其他原因导致的。
gung-恢复莫妮卡

1
@gung,我认为您是在混淆“潜在结果”和“结果”。的确,随机分配不能确保治疗与结果(即与观察到的结果)无关。但是潜在的结果与观察到的结果并不相同,随机分配确实可以确保治疗与潜在结果的独立性。在这一点上,我不会编辑原始文章以进行扩展。这样做会使我离主要话题太远了。但是en.wikipedia.org/wiki/Rubin_causal_model在这一点上可能会有所帮助。
user697473 2012年

3
“要确保潜在的结果与治疗分配无关,只要确保研究中的每个单元都具有相等的分配给治疗的可能性即可。” 这是不正确的。假设您已将男性和女性纳入研究。掷出一枚公平的硬币:如果是正面的,则将所有女性分配给治疗组(所有男性分配给对照组);如果有尾巴,则所有雄性都在治疗组中,所有雌性都在对照组中。每个受试者(显然)都有50%的机会被分配到治疗组中-但是治疗完全与性别混淆。xx
ub

1
@whuber,您的评论听起来不正确。要了解为什么,请假设 =1。男人的潜在结果是Y(1)= 1和Y(0)=0。(也就是说,如果治疗了男人,则 = 1,否则, 0。)对于女人,可能的结果是Y(1)= -1和Y(0)=2。(特定的潜在结果无关紧要,但是小整数使事情简单。)然后,E [Y(1)| Z] = E [Y(1)] =0。E[Y(0)]具有相似的相等性。更一般而言,您的分配机制不会与性别混淆,它将产生公正的ATE估计。如果我误会了一些东西,请告诉我。xYm
user697473 2012年

3
当然,在没有时钟偏差的情况下,估算值是“无偏差”的!实际上,这还比这更糟:这种随机选择方法所产生的结果不能归因于治疗方法,因为它们也可以归因于性别。这就是混淆的意思。众所周知,在消除实验中所有有用信息的同时获得公正的结果是抛弃婴儿的谚语……
whuber

Answers:


8

这是龚的评论的后续行动。总体平均治疗效果不是重点。

假设您有例年龄在至岁之间的新糖尿病患者,以及例岁新糖尿病患者。您想将一半分配给治疗。为什么不抛硬币,正面对所有年轻患者进行治疗,而尾巴对所有老年患者进行治疗?每个人都有100051510003050%有机会选择治疗方案,因此这不会使平均治疗结果产生偏差,但会浪费很多信息。如果发现青少年糖尿病或年轻患者的反应好于或患有II型或妊娠糖尿病的老年患者,那就不足为奇了。观察到的治疗效果可能没有偏见,但是,例如,与通过随机分配产生的标准差相比,它的标准偏差要大得多,尽管样本量很大,您还是不能说太多。如果您使用随机分配,则每个年龄组大约有例病例很有可能得到治疗,因此您将能够比较每个年龄组内没有治疗的治疗。 500

您可能比使用随机分配做得更好。如果您发现可能影响治疗反应的因素,则可能需要确保具有该属性的对象比通过随机分配发生的对象分配得更均匀。随机分配使您可以同时合理地处理所有因素,以便以后可以分析许多可能的模式。


谢谢,道格拉斯。这个答案对我来说很有意义。作为记录,我没有想到任何与您的示例或@whuber的示例一样极端的示例。我在考虑的不是代替我们只考虑一些治疗方法的情况。(考虑一个客户说“您可以治疗这个人或那个人,但不能两个都治疗”的情况。)但我认为,即使对于我所考虑的较温和的情况,您的一般观点仍然成立。
user697473 2012年

我认为,如果仅消除一些向量,则不会改变可以提取的大量信息。准确地量化这一点可能会很混乱-有些天真的边界可能太悲观了。
道格拉斯·扎里

@DouglasZare我对您的极端例子有疑问。我相信目标是确定这种治疗方法是否对有年轻和老病人的人群有效。然后,您的方法将从所有人均接受治疗的潜在结果分布和所有人均得到控制的潜在结果分布中生成两个不能被视为代表样本的样本。因此,您所观察到的治疗效果是有偏差的FtFc
KevinKim 2016年

1

在您的示例中,您也可以省去2和5,并且不要与自己矛盾。在项目级别,当选择1或6的几率只有1:1时,仍然有相等的机会成为1或0。但是,现在删除3和4的操作变得更加明显。


谢谢,约翰。是的,你是对的。看起来,只要我们以给每个单位相等的分配给治疗概率的方式使用其余向量,就可以任意组合消除尽可能多的治疗分配向量。
user697473 '22

我不认为你明白我的意思。我所提出的是您的论证的一个荒唐论点。
约翰

您的例子是极端的,但我认为这没有什么荒谬的。这是一个有效的证明:非随机分配方案(例如仅使用向量1和6)可以直接导致对平均治疗效果的无偏估计。因此,我们不需要随机分配即可获得无偏的ATE估计。当然,也有可能尚未原因是糟糕到5,消除向量2(见道格拉斯·扎雷的上述评论。)我还没有通过这些原因想。
user697473 2012年

你应该。这就是为什么您不能消除它们的原因。
2012年

1

这是另一个潜伏或混淆的变量:时间(或仪器漂移,样品存储的影响等)。
因此,存在反对随机化的争论(正如道格拉斯所说:您可能比随机化做得更好)。例如,您可以事先知道您希望案件随着时间的推移得到平衡。正如您事先知道要平衡性别和年龄一样。

换句话说,如果您想手动选择6个方案之一,我想说1100(或0011)绝对是一个糟糕的选择。请注意,您抛出的第一个可能性是时间上最平衡的可能性……而在约翰提议也淘汰2个和5个(反对您未提出抗议)之后,剩下的最糟糕的两个则被保留了下来。
换句话说,不幸的是,您的直觉认为哪个方案“不好”会导致不良的实验设计(恕我直言,这很普遍;也许有序的事物看起来更好-并且可以肯定地更容易在实验过程中跟踪逻辑序列)。

使用非随机方案可能可以做得更好,但是也可以做得更好。恕我直言,如果您选择非随机方案,则您应该能够为所使用的特定非随机方案提供物理/化学/生物/医学/ ...参数。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.