我正在研究在不同州使用Kaplan-Meier治疗某种癌症的中位生存期。各州之间存在很大差异。我如何比较所有州之间的中位生存率,并确定哪些州与全国各地的平均中位生存率显着不同?
我正在研究在不同州使用Kaplan-Meier治疗某种癌症的中位生存期。各州之间存在很大差异。我如何比较所有州之间的中位生存率,并确定哪些州与全国各地的平均中位生存率显着不同?
Answers:
Kaplan-Meier生存曲线要记住的一件事是,它基本上是描述性的而不是推断性的。它只是数据的功能,背后是一个极其灵活的模型。这是一个优势,因为这实际上意味着没有可能被打破的假设,但是一个劣势是因为很难将其推广,并且它既适合“噪声”又适合“信号”。如果要进行推断,则基本上必须引入一些您想知道的未知事物。
现在,比较中位生存时间的一种方法是进行以下假设:
现在,使用这些假设的“最保守”方法是最大熵原理,因此您将获得:
其中和λ被选择为使得该PDF进行归一化,并且与预期值是吨我。现在我们有:
= ķ [ - ë X p (- λ Ť 我)
因此,每个状态都有一组概率分布。
给出以下的联合概率分布:
哪里
是谐波平均值。请注意,赔率将始终有利于完美拟合,但如果中位生存时间相当接近,则赔率就不会很高。此外,这为您提供了一种直接的方法来陈述此特定假设检验的证据:
将其与决策规则,损失函数,效用函数等结合起来,这表明接受较简单的假设有多有利,您就得出了结论!
现在,这里已被忽略的一件事是状态之间的相关性-这种结构假定知道一个状态的中位生存率不会告诉您关于另一状态的中位生存率。尽管这看起来“不好”,但不难改进,并且上述计算是良好的初始结果,易于计算。
在状态之间添加连接将改变概率模型,并且您将有效地看到中值生存时间的一些“汇集”。将相关性纳入分析的一种方法是将真实的生存时间分为两个部分,即“共同部分”或“趋势”和“个体部分”:
以为我只是在这个话题上添加了一点,您可能会对带审查的分位数回归感兴趣。Bottai&Zhang 2010提出了可以完成此任务的“拉普拉斯回归”,您可以在此处找到PDF 。有一个包的Stata为此,它尚未被翻译至R虽然quantreg包R具有在审查分位数回归,功能CRQ,这可能是一个选项。
我认为这种方法非常有趣,并且对于危险率的患者来说可能更直观。例如,知道50%的药物可以比不服用药物的患者多存活2个月,而且副作用迫使您在医院停留1-2个月,这可能会使治疗选择更加容易。
首先,我将数据可视化:计算每个州的中位数存活率的置信区间和标准误,并使用漏斗图显示森林图上的CI,中位数及其SE。
“全国平均生存中位数”是根据数据估算的数量,因此具有不确定性,因此在进行有意义度测试时,您不能将其作为清晰的参考值。均值方法的另一个困难是,当您将状态中位数与状态中位数进行比较时,您正在将中位数与已经包含该数量作为组成部分的数量进行比较。因此,将每个状态与所有其他状态进行比较比较容易。这可以通过对每个状态执行日志等级测试(或其替代方法)来完成。
(阅读概率概率论的答案后进行编辑:对数秩检验确实比较了两个(或更多)组的生存率,但严格来说并不是比较的中位数。如果您确定要比较的中位数,您也可以依靠他的方程式或在此处使用重采样)
您将问题标记为[多个比较],因此我假设您还希望以某种方式调整(增加)p值,如果您看到至少一个调整后的p值小于5%,则可以得出以下结论:“各州的平均生存期为不等于”(显着性水平为5%)。您可能会使用通用和过于保守的方法,例如Bonferroni,但最佳校正方案将考虑p值的相关性。我假设您不想在校正方案中建立任何先验知识,因此我将讨论一种方案,其中调整是将每个p值乘以相同的C常数。
由于我不知道如何推导公式以获得最佳的C乘数,因此我将使用重采样。在零假设下,所有州的生存特征均相同,因此您可以排列癌症病例的州标签并重新计算中位数。在获得许多状态p值的重新采样向量后,我将在数字上找到C乘数,在该乘数以下,小于95%的向量不包含有效的p值,在其之上超过95%。虽然范围看起来很宽,但我会反复将重新采样的数量增加一个数量级。