当临床试验在早期终止时,为什么偏见会受到影响?


24

中期分析是在一个或多个时间点的数据的分析之前研究的与意图的官方接近,例如,可能早终止研究。

根据Piantadosi,S.(临床试验-方法论的观点):“ 当试验在早期阶段终止时,治疗效果的估计将有偏差。决定越早,偏差越大。

你能解释一下这个说法吗?我很容易理解精度会受到影响,但是关于偏差的说法对我来说并不明显。


我认为这是一个完美的问题,可以“充实”贝叶斯方法和频率论方法之间的差异
概率论

Answers:


13

首先,您必须注意上下文:这仅适用于因临时监视显示有效性/无效而使试验提前停止的情况,而不是出于某些随机外部原因。在那种情况下,效果大小的估计将在完全统计意义上有偏差。如果您停止效力,则估计的效果会太高(假设是肯定的),如果您停止无效,则效果会太低。

Piantodosi的确给出了直观的解释(在我的版本中,第10.5.4节)。假设两种方法的真正差异是1个单位。当您进行大量试验并在期中分析时查看它们时,其中一些观察到的效应量远大于1,一些远小于1,大多数为1左右-分布会很宽,但很对称。在这一点上估计的效果大小不是很准确,但是将是公正的。但是,只有在差异很大(针对多次测试进行了调整)时,才停止并报告效果大小,也就是说,估计值偏高。在其他所有情况下,您都会继续前进,并且不会报告任何估算值。这意味着要尽早停止,效果大小的分布不是对称的,其预期值高于估算的真实值。

这种影响在早期会更加严重的事实来自于停止试验的更大障碍,因此在调节过程中丢弃了大部分分配。


1
起初我也这么认为,但是当我坐下来证明这一点时,我做不到:我只能证明得出的估计值实际上是无偏的。 (新的直觉:有条件的停止产生的偏差与进行实验到完成之间的偏差保持平衡。)因此:您能提出更严格的论证吗?
ub

@whuber我会尽力把它写上去,但问题是,Piantodosi的说法是大约只有当你发生什么事提前停止。没有完成来平衡它。
Aniko

2
@whuber是的,这也是原始声明所声称的。您认为在完成研究时会有相反的偏见的观点也是正确的。整个信息应该是,一旦您开始进行临时监视,估计效果大小的能力就会开始发生有趣的事情。
Aniko

3
@Aniko当提前终止时,应该可以调整偏差。因此,我们似乎在讨论有条件终止的实验中用于固定大小随机样本的标准估计量的天真使用,在这种情况下,此类估计量没有所需的属性。(+1,顺便说一句。)
whuber

2
@whuber当然,您可以为这种偏见进行调整,但是首先您必须认识到它的存在。然后,您必须向研究人员出售,即使在十分之10的患者中明确做出了反应,但在调整了因早期停止而造成的偏倚后,估计的缓解率为40%(由数字组成)。
Aniko

3

这说明了结论中可能会出现偏见,以及为什么它可能不是全部。假设您已对该药物进行了顺序试验,该药物预期会产生正面(+1)作用,但可能会有负面作用(-1)。五只豚鼠一个接一个地测试。单个案例中阳性结果的未知概率实际上为和负面结果13414

因此,经过五次试验,得出不同结果的概率为

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    405/1024
+3-2 = +1    270/1024
+2-3 = -1     90/1024
+1-4 = -3     15/1024
+0-5 = -5      1/1024

因此总体上呈阳性结果的概率为918/1024 = 0.896,平均结果为+2.5。除以5个试验,得出每个试验的平均结果为+0.5。

它是无偏的图形,因为它也是+1×341×14

假设为了保护豚鼠,如果在任何阶段累积结果为阴性,则将终止研究。然后概率变成

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    324/1024
+3-2 = +1    135/1024
+2-3 = -1     18/1024
+1-2 = -1     48/1024
+0-1 = -1    256/1024

因此总体上呈阳性结果的概率为702/1024 = 0.6855,平均结果为+1.953。如果我们在先前的计算中查看了每个试验结果的平均值,即使用+3+55+1+351+15115113那么我们将得到+0.184。11

这些是在第二种方案中通过提前停止而存在偏差的感觉,并且偏差在预测的方向上。但这还不是全部。

为什么胡言乱语和概率论逻辑认为尽早停止应该产生无偏见的结果?我们知道第二个方案的预期试验结果为+1.953。预期的试验数量为3.906。因此,一个除以另一个,我们得到+0.5,与以前完全一样,并且被描述为无偏的。


您正在使用“数据前”世界。您所说的是对的,停止规则很重要,但仅在您考虑数据之前。这是因为停止规则提供有关数据的信息,但不提供真实概率的信息。因此,一旦输入数据,停止规则就不再重要。请注意,实际实验中未知真实概率。因此,您还需要考虑概率为P=3P(+)=14,以及任何其他可能的组合。P()=34
概率

因此,我以您的示例为例,说明。确实是这样!我的回答也条件d虽然。这是因为,如果您告诉我停止规则,而不是您是否确实停止过,我可以从我实际拥有的数据集中找出答案。实际上,一旦知道数据,我就可以确定是否有任何停止规则实际上已经停止了。P(H|S,I)P(H|I)D
概率

1

好吧,我对此的知识来自2008年的Harveian演讲http://bookshop.rcplondon.ac.uk/details.aspx?e=262 本质上,据我所知,结果将有偏差,因为1)提早停止通常意味着治疗效果比预期的效果好或低,如果这是积极的,那么您可能会抓住机会。我相信p值是根据计划的样本量计算的(但是我对此可能是错误的),而且如果您不断检查结果以查看是否显示了任何影响,则需要更正多次比较为了确保您不仅发现机会效应。例如,如果您检查20次以寻找.05以下的p值,那么从统计学上来说,您几乎可以肯定会找到一个显着结果。


第1部分首先,感谢您的回答。确实,常客方法可以进行多次测试。因此,治疗效果估计偏倚的问题不能由此产生。在临时分析中,测试基于当前信息,使用当前样本量,而不是总体计划样本量。因此,问题也不是来自那里。
ocram 2011年

第2部分我同意,及早停止可能意味着该治疗“比一次跳跃更有效”。从这个意义上讲,估计的治疗效果将比预期的要大。但是,对我而言,这并不会使它有偏见……而是,从某种意义上说,对我而言,“我们的希望有偏见”。
ocram 2011年

1

我不同意这种说法,除非Piantadosi用“偏见”表示准确度的一部分,通常称为偏见。推理不会“有偏见”,因为您选择了本身就停止了;推理将是“有偏见的”,因为您的数据较少。所谓的“似然原理”指出,推论应仅取决于观察到的数据,而不取决于可能已经观察到的数据,但并非如此。LP说

P(H|D,S,I)=P(H|D,I)

其中代表您要测试的假设(以命题的形式,例如“治疗有效”),D代表您实际观察到的数据,S代表“实验早已停止”的命题,和代表先验信息(例如,模型)。现在假设您的停止规则取决于数据D和先验信息I,因此您可以写出S = g D I 。现在逻辑的基本规则是A A = AHDSIDIS=g(D,I)AA=A-两次说A是正确的,和说一次是同一回事。这意味着,只要DI也为真,则将为真。因此,在“布尔代数”中,我们有D S I = D g D I I = D I。这证明了似​​然原理的上述等式。仅当您的停止规则依赖于数据D或先前信息I以外的其他条件时S=g(D,I)DID,S,I=D,g(D,I),I=D,IDI 这很重要。


@probabilityislogic:谢谢!如果我对它的理解很好,则不应从统计学的角度来考虑“偏见”。我认为这是有道理的,因为Piantadosi谈论的是估算的“偏见”,而不是估算的……
ocram 2011年

E(μμ^)2=var(μ^)+Bias(μ^)μμ^是“估算器”。如果第二项(偏倚)取决于样本量,那么您希望提前停止会增加偏倚,因为相对于继续进行实验而言,因为它减小了样本量。但是,从您所说的内容来看,从皮安塔多西的角度看来,“偏见”应该被解释为“错误”。
概率

1
这个论点没有说偏见,只是说问题的假设检验方面,没有人质疑。
Aniko

@Prob我必须同意@Aniko:很明显,当null为true时,提前终止的可能性为正,在这种情况下,影响的估计将为非零。因此,以提前终止为条件的估计效果的期望为正,而无条件期望为零。(请注意,OP只是
在进行

Hμ(a,a+da)SDISS小号 只给您有关的信息 d一世,而不是直接有关 μ
概率

0

there will be bias (in "statistical sense") if termination of studies is not random.

通过一系列实验得出结论,(a)最终发现“无效果”的一些实验的“早期”结果将显示出某种效果(由于偶然的结果),以及(b)一些最终确实发现了“无效果”的实验效果将显示为“无效果”(可能是由于缺乏动力)。在您终止试验的世界中,如果您停止(a)的次数比(b)的停止次数多,那么您最终会因偏向于寻求效果而进行一系列研究。(相同的逻辑适用于效应;终止显示“大于预期”效应的研究要比显示“预期或更低”的研究更早出现,这会增加“较大效应”的发现数量。)

If in fact medical trials are terminated when early results show a positive effect -- in order to make treatment available to subjects in placebo or others -- but not when early results are inconclusive, then there will be more type 1 error in such testing than there would be if all experiments were run to conclusion. But that doesn't meant the practice is wrong; the cost of type 1 error, morally speaking, might be lower than denying treatment as quickly as one otherwise would for treatments that really would be shown to work at end of full trial.


Please see my comment to Aniko's reply, because I would ask the same question of you: can you provide a more rigorous demonstration?
whuber

I defer to Aniko--he does a better job than I could. But if you agree that "desk drawer effect" results in bias, the logic here is identical. There is bias in favor of data supportive of hypothesis -- in the former case b/c the not-supportive data are not reported, in the latter b/c some fraction of not-supported data is necessarily not being collected: Ending the trial early when results look good excludes that part of the "bad results" distribution populated by trials that will produce their bad results late. Maybe this bias can be adjusted for--but there is bias in need of adjustment.
dmk38

@dmk I'm just trying to spur you both to have a debate with @Probability, with whom you seem to sharply disagree ;-).
whuber

1
@whuber, @dmk - I think we are destined to disagree not because either of us is wrong, but because each is answering a different question. The frequentist considers P(D|H,S,I) as "the answer", and if this is the object, then the stopping rule does matter. But to what question is it the answer? To me, this answers the question: "what data are we likely to observe, given the hypothesis is true (or parameter is said value), that we have stopped early, and from our prior information?" But this is not the question that is actually being asked I think (more later)
probabilityislogic

1
@probability That is one way to look at it. Another is to dodge the hypothesis altogether and address the question actually being asked; to wit, what is the size of the treatment effect? From this point of view termination can occur once the estimate is known with sufficient accuracy to support decision making. For example, we might want to have high confidence that the gain in health from prescribing the treatment is likely to exceed the costs (and side effects) of the treatment.
whuber
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.