在许多考虑治疗和结果的论文中,我看到了可能被称为令人讨厌的变量的表(通常是“表1”)(通常是人口统计信息,有时是医疗状况),并带有显着性检验和文字测试,例如“各组大致相似,在XXXXX上没有明显差异,请参见表”。因此,明确的目标是表明分配给不同治疗方法的组是相似的。
但是,在我看来,这似乎是“接受空值”,而我们应该做的(或要求完成的)是对等的检验。
这可能适用于随机试验或观察性研究。我在这里想念什么吗?
在许多考虑治疗和结果的论文中,我看到了可能被称为令人讨厌的变量的表(通常是“表1”)(通常是人口统计信息,有时是医疗状况),并带有显着性检验和文字测试,例如“各组大致相似,在XXXXX上没有明显差异,请参见表”。因此,明确的目标是表明分配给不同治疗方法的组是相似的。
但是,在我看来,这似乎是“接受空值”,而我们应该做的(或要求完成的)是对等的检验。
这可能适用于随机试验或观察性研究。我在这里想念什么吗?
Answers:
这是一个复杂的问题,引入了许多相关问题:1)明确指定假设; 2)理解假设结果可能是什么因果机制(可能)和3)表达方式/选择。
你说,如果我们采用健全的统计做法,宣称“群体是对是相似的”,一个人必须要执行等效的考验。但是,等价性测试与NHST一样遭受相同的问题:功效仅是样本数量和比较次数的反映:我们期望差异,但它们对主要分析的范围和影响更为重要。
当遇到这些情况时,基线比较几乎总是赤字。可以采用更好的方法(科学和统计学)。在回答此类问题时,我会考虑一些库存概念/响应。
在临床试验中,通常会分析安全性样品。这是首先接触,然后同意,然后随机化,最后暴露于至少一次迭代的控制或治疗的患者的子集。在此过程中,我们面临着不同程度的参与偏见。
这些研究中最重要和最省略的方面可能是汇总显示表1结果。这达到了表1的最重要目的:向其他研究人员展示研究样本对适用结果的更广泛人群的通用性。
当完全不考虑纳入/排除标准和样本的可概括性时,我发现令人惊讶的是,固定的研究者,读者和评论者如何看待患者特征内的切线趋势。
我很say愧地说自己是一名分析师,但忽略了这一问题。我们招募了患者,然后由于后勤问题,我们等了将近一年才实施干预措施。配偶图不仅显示了这两个时期之间的巨大下降,而且样本发生了变化。其结果是,与我们打算接触的人群相比,失业/未充分就业,年龄更大且更健康。我对这项研究的普遍性深感忧虑,但要说服这些忧虑很难。
如前所述,提供这样一个详细的基准变量列表的目的是提供样本的完整快照。他们的病史,实验室,药物和人口统计资料。这些都是临床医生用来向患者推荐治疗方法的所有方面。他们都相信可以预测结果。但是,这些因素的数量惊人。最多可以比较30个不同的变量。I型错误的粗风险为1-(1-0.05)^ 30 = 0.79。如果必须执行测试,建议进行Bonferroni或置换校正。
最纯粹形式的统计测试是公正的,并且应该预先指定。但是,基线特征的选择和表示通常是相对的。我觉得后一种方法是合适的:如果像我的试验中那样发现有趣的特征可以有效地描述样本,我们应该可以自由选择临时呈现这些值。可以进行测试(如果有任何价值),但是通常需要注意以下几点:它们不是我们感兴趣的假设,对于有意义的结果和不重要的结果意味着什么,很容易造成混淆,并且结果更多地反映了样本数量和呈现方式要比任何事实都要多。
正如我提到的,分析的样品通常是安全样品。但是,对于尚未接受研究治疗的患者,重新随机化是一种备受推崇且理论上一致的方法。这仅适用于执行批量注册的设置。在这里,招募了100名参与者并进行了随机分组。例如,如果概率将较高比例的老年人分配给一组,则可以重新抽样以平衡年龄。不能按顺序或交错进行注册,这是进行大多数试验的环境。这是因为入学时间倾向于通过普遍的病例“偏见”(混淆事件和普遍的资格标准)来预测患者的状况。
随机假设表明,从理论上讲,所有参与者的协变量平均分布均等。但是,如前所述,当比较30个或更多级别时,不平衡的累积概率不可忽略。实际上,当考虑整体时,协变量的不平衡可能无关紧要。
如果随机分配是公平的,我们可能会看到治疗组的年龄增加了,但是对照组的吸烟率增加了:这两种情况都会单独导致结果风险。有效而有效的推理所需要的是,倾向得分在各组之间保持平衡。这种情况要弱得多。不幸的是,没有风险模型就无法检查倾向性。但是,很容易看出这种倾向性取决于协变量的组合,尽管无法准确显示,但随机样本中倾向性不平衡的可能性要小得多。
我最喜欢的论文之一是随机对照试验的7个神话,对此进行了讨论。当调整变量可以强烈预测结果时,调整可以提高效率。事实证明,即使使用平衡的50/50平衡(例如使用封闭随机数),或者甚至是随机执行方式的巧合,调整也会缩小CI,从而需要更少的参与者进行同样有效的研究。这样可以降低成本和风险。令人震惊的是,这种情况并不经常发生。
随机假设消除了混淆。如果采用非随机的治疗方法,会产生混淆。混杂因素是变量,它是结果的因果关系,并预测接受准实验性治疗。没有测试来确定哪些变量是混杂因素。窥探数据以回答这些问题的风险在于,在没有完全完美地测量纵向值的情况下(甚至到那时),混杂因素与调解人或对撞机几乎没有区别。对调解人进行调整会减弱任何影响,对撞机调整会导致任何类型的偏差。此外,一个人不必针对一整套混杂因素进行调整,而是必须删除后门准则。
例如,在一项针对青少年肺功能和吸烟的研究中:年龄较大的孩子吸烟的可能性更高,但是由于他们的身高较高,因此他们的肺功能也更大。事实证明,仅通过调整高度就可以消除混淆,因为它满足了后门标准。进一步调整年龄只会失去效率。但是,仅检查吸烟者和非吸烟者中表1的“平衡”将表明年龄和身高都是“失衡”的,因此应加以控制。那是不对的。