(某些)伪随机化有什么问题


23

我遇到了一项研究,其中对50岁以上的患者按出生年份进行了伪随机分组。如果出生年份是偶数,则通常护理,如果是奇数,则进行干预。

它更容易实现,更难颠覆(很容易检查病人应该接受的治疗),很容易记住(任务进行了数年)。但是,我仍然不喜欢它,我觉得适当的随机化会更好。但我无法解释原因。

我是否感觉错了?还是有充分的理由倾向于“真正的”随机化?


1
欢迎光临本站!很高兴在这里看到您的帖子。
Andy W

通过以上答案,我觉得在出生当天“随机化”会更好!奇怪的一天,甚至可以控制的日子... Adalberto
AADF

6
@Adalberto这遗漏了要点,那就是不能确保将主题分配给组的任何确定的,非随机的过程都具有随机过程所具有的理想特性。假设您之后才花费数年的时间进行此类研究,以使审阅者指出治疗与出生天数之间存在出乎意料但又很强的混杂因素?因为我们无法预料所有这些混淆,所以我们通过随机分配来回避问题。
whuber

Answers:


28

您对此表示怀疑是正确的。通常,应该使用“真实”随机方法,因为通常情况下,人们对相关因素(不可观察的事物)一无所知。如果这些不可观察者之一与奇数或偶数年龄相关,那么它也与他们是否接受过治疗相关。如果是这种情况,我们将无法确定治疗效果:我们观察到的效果可能是由于治疗,还是由于未观察到的因素。

对于真正的随机化而言,这不是问题,在这种情况下,我们不希望治疗与不可观察性之间有任何依存关系(当然,对于小样本而言,可能就存在这种依赖关系)。

为了构建一个说明为什么这种随机化程序可能会引起问题的故事,假设该研究仅包括例如越战爆发时17/18岁的受试者。拥有17岁的人没有机会起草(如果我错了,请纠正我),而拥有18岁的人有机会。假设这个机会是不可忽略的,战争经验改变了人们,这意味着几年后,这两个群体即使相隔仅一年,也有所不同。因此,也许这种治疗(药物)看起来不起作用,但是因为只有越南退伍军人才能得到治疗,这实际上可能是由于它不适用于PTSD患者(或其他与成为老将)。换句话说,除了治疗以外,您需要两组(治疗组和对照组)相同,以识别治疗效果。

因此,除非您可以排除两组之间没有观察到的差异(但是,如果没有观察到该怎么办?),则最好使用真正的随机方法。


谢谢。很好的例子。(我忘了称它为伪随机化,我已经在问题中对其进行了编辑)。
Jeremy Miles

2
(+1)在我阅读问题时,越南是第一个立即浮现在脑海的例子。看到您采取了同样的方法,这很有趣。我认为,考虑到受试者的年龄,这是最明显的选择,尽管60年代初期到中期的年龄要近一些。
红衣主教

道歉平的道歉:关于Meta的建议,使[randomized-experiment]成为[random-allocation]标签的同义词(stats.meta.stackexchange.com/a/4651)。您可以在此标签中拥有足够的声誉,以便在此处对此建议进行投票:stats.stackexchange.com/tags/random-allocation/synonyms-现在需要进行4次投票。如果您不同意该建议,请考虑对Meta进行评论以解释原因。我将很快删除此评论。干杯。
变形虫说恢复莫妮卡

18

不时坚持反对派观点是一个很好的练习,因此,让我从提供支持这种形式的伪随机化的几个理由开始。 从原则上讲,它们与任何其他形式的系统采样都没有什么不同,例如在田野某个网格点获取环境介质采样或对果园中的每棵其他树木进行采样,因此这种采样可能具有可比的优势。 。

这里的类比是完美的: 年龄是从零开始的,按年份“固定”,并沿该(一维)网格交替分配组。这种方法的一些优点是可以保证样品在田间或果园(在这种情况下为年龄)的广泛均匀分布,这有助于消除与位置(或时间)有关的影响。当理论认为位置是响应变化的主要因素时,这可能特别有用。此外,除了非常小的样本外,分析数据就像它们是一个简单的随机样本,引入的误差相对较小。此外,可以进行一些随机化:在现场,我们可以随机选择网格的原点和方向。在当前情况下,我们至少可以随机化偶数年是对照组还是治疗组。

网格采样的另一个优点是可以检测局部变化。 在现场,这将是异常反应的“口袋”。从统计上讲,我们可以将它们视为空间相关性的体现 在目前的情况下,如果某个相对狭窄的年龄范围有可能出现异常反应,那么网格设计是一个不错的选择,因为纯随机设计可能偶然地在一个组中包含较大的年龄差距。(但更好的设计可能是分层:使用年龄平等来形成两个分析层次,然后在每个层次内独立地将患者随机分为对照组和治疗组。)

不幸的是,一旦我们对年龄的实际报告方式达成共识,这种防御就会瓦解。美国人口普查数据显示:(1)自我报告的年龄趋于四舍五入(我在农村街区分组数据的分析中已经看到),并且(2)这种趋势与低学历或社会经济地位的指标有关。(众所周知,尽管很难测试,但在许多自我报告的年龄中,最后一位数字是;在某些工作领域(例如表演)的人倾向于减少其报告的年龄,而其他人则会夸大他们的年龄因此,至少在美国的某些地区(甚至在世界其他地区甚至更多),至少在某种程度上,一个人报告的年龄很可能是同等的9与对实验重要的因素有关。这使得问题中的关注点少于假设的关注点:这是真实的。在这一点上,该主题中的先前答案很可能会提出我将要提出的其他想法,因此,我将停止并邀请您重新阅读它们。


(+1)特别是针对抗辩成立。
主教

13

我同意您所举的例子是无害的,但是...

如果所涉及的代理(进行干预的人员或进行干预的人员)意识到分配方案,则可以利用该方案。这种自我选择应该很明显,为什么在大多数实验设计中都会出现问题。

我在犯罪学中知道的一个例子就是这样。该实验旨在测试国内纠纷后在监狱中过夜的威慑作用,而不是仅仅要求肇事者过夜。官员们得到了一本小册子,上面的当前工作表的颜色是为了确定对病人的治疗。在特定事件中本应收到。

最终发生的事情是军官有意违抗研究设计,并根据个人喜好选择了一张纸,以应对刺杀者。怀疑在您的示例中至少有可能进行类似的多年摸索并非非同寻常。


很好的例子,谢谢,但是部分原因是伪造更加困难-他们不能说这张纸是(说)黄色的,因为我可以去检查一下出生日期,看看他们的分配是否正确。
Jeremy Miles

3
我同意@JeremyMiles,但这只是进行双盲随机研究的另一个原因。只是反对伪随机化的预期论点-与实际随机化相比,规避预期的处理要容易得多。(我的示例实际上不是伪随机化的示例,但它简洁地说明了这一点。)
Andy W

好吧,这取决于(真正)随机化的方式-研究人员在某种程度上避免了颠覆问题。如果您使用实际的随机分配,则需要保持良好的记录,以确保确定随机分配的人员与提供治疗的人员进行沟通,并且提供的人员执行正确的操作。以您的示例为例,如果他们使用门牌号(例如),即使不是随机的,警察可能也很难进行颠覆。
Jeremy Miles

1
道歉平的道歉:关于Meta的建议,使[randomized-experiment]成为[random-allocation]标签的同义词(stats.meta.stackexchange.com/a/4651)。您可以在此标签中拥有足够的声誉,以便在此处对此建议进行投票:stats.stackexchange.com/tags/random-allocation/synonyms-现在需要进行4次投票。如果您不同意该建议,请考虑对Meta进行评论以解释原因。我将很快删除此评论。干杯。
变形虫说恢复莫妮卡

0

基于随机分布的完全随机化是不可预测的,在您的情况下,已知在资格确认之前将案例分配给干预还是控制。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.