当我们比较控制变量的组时,是否应该使用等效检验?


13

在许多考虑治疗和结果的论文中,我看到了可能被称为令人讨厌的变量的表(通常是“表1”)(通常是人口统计信息,有时是医疗状况),并带有显着性检验和文字测试,例如“各组大致相似,在XXXXX上没有明显差异,请参见表”。因此,明确的目标是表明分配给不同治疗方法的组是相似的。

但是,在我看来,这似乎是“接受空值”,而我们应该做的(或要求完成的)是对等的检验。

这可能适用于随机试验或观察性研究。我在这里想念什么吗?


1
我认为您是指“表1”。您是在问RCT本身还是观察性研究?
gung-恢复莫妮卡

@gung是的,通常是表1。它可以是观察性研究或RCT。我修改了问题以反映您的评论。
彼得·弗洛姆

1
即使冒着陈述显而易见的风险:也有一些论文解决了这个问题(例如de Boer等人(2015))。我认为,共识是应该在基准表中放弃假设检验。临床试验的CONSORT声明以及观察性研究的STROBE声明建议避免在基线表中进行假设检验。如果等效测试更好,我不知道。
COOLSerdash '18

是否针对null进行测试还是进行对等测试取决于动机,并影响可以从表中进行的讨论。断言等效性是一个非常强的条件,我怀疑在大多数情况下没有必要,除非作者想对人口统计数据等得出强有力的结论。采用正规的程序来量化因相关失衡而产生的偏见风险将是更好,更合适的方法。人口统计资料。我没有对此进行研究,但会对其他人的看法感兴趣。
ReneBt

Answers:


10

这是一个复杂的问题,引入了许多相关问题:1)明确指定假设; 2)理解假设结果可能是什么因果机制(可能)和3)表达方式/选择。

你说,如果我们采用健全的统计做法,宣称“群体是对相似的”,一个人必须要执行等效的考验。但是,等价性测试与NHST一样遭受相同的问题:功效仅是样本数量和比较次数的反映:我们期望差异,但它们对主要分析的范围和影响更为重要。

当遇到这些情况时,基线比较几乎总是赤字。可以采用更好的方法(科学和统计学)。在回答此类问题时,我会考虑一些库存概念/响应。

“总计”列比“按处理划分”列更重要;对这些价值进行讨论是必要的。

在临床试验中,通常会分析安全性样品。这是首先接触,然后同意,然后随机化,最后暴露于至少一次迭代的控制或治疗的患者的子集。在此过程中,我们面临着不同程度的参与偏见。

这些研究中最重要和最省略的方面可能是汇总显示表1结果。这达到了表1的最重要目的:向其他研究人员展示研究样本对适用结果的更广泛人群的通用性。

当完全不考虑纳入/排除标准和样本的可概括性时,我发现令人惊讶的是,固定的研究者,读者和评论者如何看待患者特征内的切线趋势。

我很say愧地说自己是一名分析师,但忽略了这一问题。我们招募了患者,然后由于后勤问题,我们等了将近一年才实施干预措施。配偶图不仅显示了这两个时期之间的巨大下降,而且样本发生了变化。其结果是,与我们打算接触的人群相比,失业/未充分就业,年龄更大且更健康。我对这项研究的普遍性深感忧虑,但要说服这些忧虑很难。

检测基线特征不平衡的测试的功效和I型误差取决于特征的实际数量

如前所述,提供这样一个详细的基准变量列表的目的是提供样本的完整快照。他们的病史,实验室,药物和人口统计资料。这些都是临床医生用来向患者推荐治疗方法的所有方面。他们都相信可以预测结果。但是,这些因素的数量惊人。最多可以比较30个不同的变量。I型错误的粗风险为1-(1-0.05)^ 30 = 0.79。如果必须执行测试,建议进行Bonferroni或置换校正。

最纯粹形式的统计测试是公正的,并且应该预先指定。但是,基线特征的选择和表示通常是相对的。我觉得后一种方法是合适的:如果像我的试验中那样发现有趣的特征可以有效地描述样本,我们应该可以自由选择临时呈现这些值。可以进行测试(如果有任何价值),但是通常需要注意以下几点:它们不是我们感兴趣的假设,对于有意义的结果和不重要的结果意味着什么,很容易造成混淆,并且结果更多地反映了样本数量和呈现方式要比任何事实都要多。

可以进行随机化,但是只能在患者接受治疗之前

正如我提到的,分析的样品通常是安全样品。但是,对于尚未接受研究治疗的患者,重新随机化是一种备受推崇且理论上一致的方法。这仅适用于执行批量注册的设置。在这里,招募了100名参与者并进行了随机分组。例如,如果概率将较高比例的老年人分配给一组,则可以重新抽样以平衡年龄。不能按顺序或交错进行注册,这是进行大多数试验的环境。这是因为入学时间倾向于通过普遍的病例“偏见”(混淆事件和普遍的资格标准)来预测患者的状况。

平衡的设计不是有效推断的必要条件

随机假设表明,从理论上讲,所有参与者的协变量平均分布均等。但是,如前所述,当比较30个或更多级别时,不平衡的累积概率不可忽略。实际上,当考虑整体时,协变量的不平衡可能无关紧要。

如果随机分配是公平的,我们可能会看到治疗组的年龄增加了,但是对照组的吸烟率增加了:这两种情况都会单独导致结果风险。有效而有效的推理所需要的是,倾向得分在各组之间保持平衡。这种情况要弱得多。不幸的是,没有风险模型就无法检查倾向性。但是,很容易看出这种倾向性取决于协变量的组合,尽管无法准确显示,但随机样本中倾向性不平衡的可能性要小得多。

如果已知风险模型或存在强有力的结果预测因素,则只需调整这些因素即可进行更有效,更有效的RCT,无论它们在治疗组之间是否平衡

我最喜欢的论文之一是随机对照试验的7个神话,对此进行了讨论。当调整变量可以强烈预测结果时,调整可以提高效率。事实证明,即使使用平衡的50/50平衡(例如使用封闭随机数),或者甚至是随机执行方式的巧合,调整也会缩小CI,从而需要更少的参与者进行同样有效的研究。这样可以降低成本和风险。令人震惊的是,这种情况并不经常发生。

观察性研究要求控制混淆,无论表1显示了什么

随机假设消除了混淆。如果采用非随机的治疗方法,会产生混淆。混杂因素是变量,它是结果的因果关系,并预测接受准实验性治疗。没有测试来确定哪些变量是混杂因素。窥探数据以回答这些问题的风险在于,在没有完全完美地测量纵向值的情况下(甚至到那时),混杂因素与调解人或对撞机几乎没有区别。对调解人进行调整会减弱任何影响,对撞机调整会导致任何类型的偏差。此外,一个人不必针对一整套混杂因素进行调整,而是必须删除后门准则。

例如,在一项针对青少年肺功能和吸烟的研究中:年龄较大的孩子吸烟的可能性更高,但是由于他们的身高较高,因此他们的肺功能也更大。事实证明,仅通过调整高度就可以消除混淆,因为它满足了后门标准。进一步调整年龄只会失去效率。但是,仅检查吸烟者和非吸烟者中表1的“平衡”将表明年龄和身高都是“失衡”的,因此应加以控制。那是不对的。


1
我对此表示同意,并且非常了解p值存在的问题。(您将在此站点上发现很少的人,或者反p值比我高)。我全力寻求更好的方法,其中一些是您提出的。当然,某些变量可能是抑制器(因此包括它们会增加主要效果的大小)。但是,例如,如果我正在审阅某期刊的论文,那么您认为推荐表1的等效测试是好的,还是您会在这里获得完整的答案?
彼得·弗洛姆

1
@PeterFlom我现在看到的上下文更好了。作为一名统计审查员,我将考虑该评论是否与后续分析相关。如果不相关,我鼓励他们删除该评论,因为它没有用。如果相关,我鼓励他们a)考虑一种更可靠的分析方法,或b)使用敏感性分析来确定是否存在可能的影响。协变量的平衡仅在影响分析的范围内才重要,因此,我希望在此给予关注。这不是倾向匹配的设计,是吗?
AdamO '18

1
@PeterFlom作为审阅者,建议完全摆脱“表1”中的p值是否有意义?
变形虫说恢复莫妮卡

1
AdamO,很好的答案(+1),但是我对在“表1”的上下文中“建议”进行多个测试调整的建议有些担心。I型错误是否与您有关?我觉得在这种情况下,II型错误实际上更为重要(不希望错过这样的事实,即治疗组和对照组之间的某些基准变量存在差异)。使用Bonferroni,II型错误将大大增加。这与@Peter关于等效性测试的观点有关:从某种意义上说,如果切换到“等效性”观点,则类型I和类型II交换位置。
变形虫说恢复莫妮卡

1
@amoeba绝对。如果我们坚持使用这种方法(不是我的建议),则NHST要求我们控制I型错误。我认为我的观点是我们应该控制FWER,因为我们不在乎哪个变量不平衡。可以将其设置为0.2之类的较大值。我不知道为此停电任何等价测试样本容量的增加,因此对于这样的测试是理罗嗦,主观的,不准确的。
AdamO '18
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.