如何比较两组之间的中位生存期?


12

我正在研究在不同州使用Kaplan-Meier治疗某种癌症的中位生存期。各州之间存在很大差异。我如何比较所有州之间的中位生存率,并确定哪些州与全国各地的平均中位生存率显着不同?


您能否提供一些有关样本量,时间框架,存活率百分比等的信息,以便我们更好地了解您的研究设计?
chl 2010年

除了最大值以外,数据中是否存在审查值?
罗纳夫

数据中确实有检查值,总人口约为1500,中位总体生存期为18个月(范围为300-600天)...时间范围为2000-2007年。
Misha 2010年

Answers:


6

Kaplan-Meier生存曲线要记住的一件事是,它基本上是描述性的而不是推断性的。它只是数据的功能,背后是一个极其灵活的模型。这是一个优势,因为这实际上意味着没有可能被打破的假设,但是一个劣势是因为很难将其推广,并且它既适合“噪声”又适合“信号”。如果要进行推断,则基本上必须引入一些您想知道的未知事物。

现在,比较中位生存时间的一种方法是进行以下假设:

  1. 我对每个i状态的中值生存时间进行了估计,由kaplan meier曲线给出。tii
  2. 我期望真实的中位生存时间等于该估计值。 E T i | t i= t iTiE(Ti|ti)=ti
  3. 我100%确信真实的中位生存时间为正。Pr(Ti>0)=1

现在,使用这些假设的“最保守”方法是最大熵原理,因此您将获得:

p(Ti|ti)=Kexp(λTi)

其中λ被选择为使得该PDF进行归一化,并且与预期值是。现在我们有:Kλti

= ķ [ - ë X p - λ Ť

1=0p(Ti|ti)dTi=K0exp(λTi)dTi
,现在我们有 E T i= 1
=K[exp(λTi)λ]Ti=0Ti==KλK=λ
E(Ti)=1λλ=ti1

因此,每个状态都有一组概率分布。

p(Ti|ti)=1tiexp(Titi)(i=1,,N)

给出以下的联合概率分布:

p(T1,T2,,TN|t1,t2,,tN)=i=1N1tiexp(Titi)

H0:T1=T2==TN=t¯t¯=1Ni=1NtiHA:T1=t1,,TN=tN

O(HA|H0)=p(T1=t1,T2=t2,,TN=tN|t1,t2,,tN)p(T1=t¯,T2=t¯,,TN=t¯|t1,t2,,tN)
=[i=1N1ti]exp(i=1Ntiti)[i=1N1ti]exp(i=1Nt¯ti)=exp(N[t¯tharm1])

哪里

tharm=[1Ni=1Nti1]1t¯

是谐波平均值。请注意,赔率将始终有利于完美拟合,但如果中位生存时间相当接近,则赔率就不会很高。此外,这为您提供了一种直接的方法来陈述此特定假设检验的证据:

O(HA|H0):1

将其与决策规则,损失函数,效用函数等结合起来,这表明接受较简单的假设有多有利,您就得出了结论!

H0

HS,i:Ti=ti,Tj=T=t¯(i)=1N1jitj

i

  • HAHS,i
  • H0HS,i
  • HS,kki

现在,这里已被忽略的一件事是状态之间的相关性-这种结构假定知道一个状态的中位生存率不会告诉您关于另一状态的中位生存率。尽管这看起来“不好”,但不难改进,并且上述计算是良好的初始结果,易于计算。

在状态之间添加连接将改变概率模型,并且您将有效地看到中值生存时间的一些“汇集”。将相关性纳入分析的一种方法是将真实的生存时间分为两个部分,即“共同部分”或“趋势”和“个体部分”:

Ti=T+Ui

Uiσ


(+1)非常有趣。您的帖子还使我在答案中插入了评论。
GaBorgulya

M1

@cardinal,我很抱歉-这是一个错字。将被删除
概率

无需道歉。只是不确定我在阅读时是否跳过了它,或者只是缺少明显的东西。
红衣主教

4

以为我只是在这个话题上添加了一点,您可能会对带审查的分位数回归感兴趣。Bottai&Zhang 2010提出了可以完成此任务的“拉普拉斯回归”,您可以在此处找到PDF 。有一个包的Stata为此,它尚未被翻译至R虽然quantreg包R具有在审查分位数回归,功能CRQ,这可能是一个选项。

我认为这种方法非常有趣,并且对于危险率的患者来说可能更直观。例如,知道50%的药物可以比不服用药物的患者多存活2个月,而且副作用迫使您在医院停留1-2个月,这可能会使治疗选择更加容易。


我不知道“拉普拉斯回归”,但是关于您的第二段,我想知道我是否理解正确。通常在生存分析中(从加速失败时间的角度考虑),我们会说类似“药物组的第50个百分位数比对照组的第50个百分位数晚2个月”。这是您的意思,还是LR的输出提供了不同的解释?
gung-恢复莫妮卡

@gung:我认为您的解释正确-更改了文字,更好吗?尽管我最近在课程中遇到过回归模型,但我自己并未使用回归模型。Tt是我经常使用的常规Cox模型的一种有趣替代方法。尽管我可能需要花更多的时间来理解这个主意,但我还是觉得向我的病人解释可能更容易,因为我在向病人解释时经常使用KM曲线。人力资源部要求您真正了解相对风险和绝对风险之间的差异-这个概念可能需要一段时间才能解释...
Max Gordon


谢谢@Misha的链接。作者在此处提供回复:onlinelibrary.wiley.com/doi/10.1002/bimj.201100103/abstract
Max Gordon

3

首先,我将数据可视化:计算每个州的中位数存活率的置信区间和标准误,并使用漏斗图显示森林图上的CI,中位数及其SE。

“全国平均生存中位数”是根据数据估算的数量,因此具有不确定性,因此在进行有意义度测试时,您不能将其作为清晰的参考值。均值方法的另一个困难是,当您将状态中位数与状态中位数进行比较时,您正在将中位数与已经包含该数量作为组成部分的数量进行比较。因此,将每个状态与所有其他状态进行比较比较容易。这可以通过对每个状态执行日志等级测试(或其替代方法)来完成。
(阅读概率概率论的答案后进行编辑:对数秩检验确实比较了两个(或更多)组的生存率,但严格来说并不是比较的中位数。如果您确定要比较的中位数,您也可以依靠他的方程式或在此处使用重采样)

您将问题标记为[多个比较],因此我假设您还希望以某种方式调整(增加)p值,如果您看到至少一个调整后的p值小于5%,则可以得出以下结论:“各州的平均生存期为不等于”(显着性水平为5%)。您可能会使用通用和过于保守的方法,例如Bonferroni,但最佳校正方案将考虑p值的相关性。我假设您不想在校正方案中建立任何先验知识,因此我将讨论一种方案,其中调整是将每个p值乘以相同的C常数。

由于我不知道如何推导公式以获得最佳的C乘数,因此我将使用重采样。在零假设下,所有州的生存特征均相同,因此您可以排列癌症病例的州标签并重新计算中位数。在获得许多状态p值的重新采样向量后,我将在数字上找到C乘数,在该乘数以下,小于95%的向量不包含有效的p值,在其之上超过95%。虽然范围看起来很宽,但我会反复将重新采样的数量增加一个数量级。


关于可视化数据的好建议。(+1)
概率

@probabilityislogic谢谢!我也欢迎批评,尤其是建设性的批评。
GaBorgulya 2011年

我唯一的批评是对p值的使用,但这比答案中的任何内容都更“贴近我”-好像如果您要使用p值,那么您的建议是好的。我只是认为使用p值不好。 在有关p值的评论中,请参见此处与@eduardo的交流。
概率
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.