统计和大数据 survival

1

我正在尝试使用逻辑回归模型进行离散时间生存分析，但不确定我是否完全理解该过程。对于一些基本问题，我将不胜感激。设置如下：我正在寻找五年内的小组成员。每个成员都有该成员在组中每个月的月度记录。我正在考虑所有成员都是在五年窗口内开始的（以避免与较早加入的成员出现“左审查”问题）。每条记录将按时间编制索引，时间是成员加入的月份。因此，一个住了两年半的会员将拥有三十条月度记录，从一个到三十个。每条记录还将被赋予一个二进制变量，对于成员资格的最后一个月，该变量的值为1，否则为零。二进制变量的值为1表示成员已离开组的事件。对于其成员资格持续超过五年分析窗口的每个成员，因此，建立了逻辑回归模型来预测二进制事件变量的值。到目前为止，一切都很好。评估二进制预测模型的一种典型方法是测量保留样本的提升。对于我用来预测成员资格结束事件的逻辑回归模型，我计算了非事件与事件的比率为五比一的保留数据集的提升。我将预测值按十分位排序。预测值最高的十分位数包含百分之七十，升幅超过四倍。前两个十分之一加起来占保留中所有总数的百分之六十五。在某些情况下，这将被认为是相当不错的预测模型，但我想知道它是否足以进行生存分析。令h[j,k]h[j,k]h[j,k]为个体jjj在月的危险函数kkk，令S[j,k]S[j,k]S[j,k]为个体jjj生存于月的概率kkk。这是我的基本问题：离散风险函数h[j,k]h[j,k]h[j,k]是每个月非生存（离开小组）的条件概率吗？危险函数的逻辑回归模型估计值中的预测值是否是？（即，h[j,k]h[j,k]h[j,k]等于月k中单个的模型预测值，还是需要做更多的工作才能获得危险函数估计值？）jjjkkk 个体直到q月的生存概率jjj等于1减去从一月到的危害函数的乘积qqq，即 S[j,q]=(1−h[j,1])⋅(1−h[j,2])⋅…⋅(1−h[j,q])S[j,q]=(1−h[j,1])⋅(1−h[j,2])⋅…⋅(1−h[j,q])S[j,q] = (1 - h[j,1]) \cdot (1 - h[j,2]) \cdot \ldots \cdot (1 - h[j,q])？每次k时所有个体j的的平均值是否是总体总体平均生存概率的合理估计？S[j,k]S[j,k]S[j,k]jjjkkk 总体人口图的平均生存概率是否应该类似于每月的Kaplan-Meier图？如果对这些问题中的任何一个的回答是否定的，那么我有一个严重的误解，可以真正使用一些帮助/解释。此外，对于产生准确的生存状况，二进制预测模型需要达到多好的水平有任何经验法则吗？

18 survival discrete-data hazard kaplan-meier

1

为什么Cox比例风险模型中的p值通常比逻辑回归中的p值高？

我一直在学习Cox比例风险模型。我有很多适合逻辑回归模型的经验，因此，为了建立直觉，我一直在比较coxphR“ survival”中使用的模型glm与配合使用的逻辑回归模型family="binomial"。如果我运行代码： library(survival) s = Surv(time=lung$time, event=lung$status - 1) summary(coxph(s ~ age, data=lung)) summary(glm(status-1 ~ age, data=lung, family="binomial")) 我分别获得了0.0419和0.0254年龄的p值。同样，如果我使用性别作为预测因子，则可以选择是否带有年龄。我感到困惑，是因为我认为，拟合模型时考虑到流逝的时间比将死亡视为二进制结果会带来更多的统计能力，而p值似乎与统计能力较小的人一致。这里发生了什么？

17 r logistic survival cox-model power

3

R中随时间变化的系数-怎么做？

更新：很抱歉要进行其他更新，但是我发现了一些需要解决的小数多项式和竞争性风险组合的解决方案。问题我在R中找不到一种简单的方法来进行时变系数分析。我希望能够将变量系数转换为时变系数（而不是变量），然后绘制随时间变化的图： β米ÿ_ v a r a a b l e= β0+ β1个* t + β2* Ť2。。。β米ÿ_v一种[R一世一种b升Ë=β0+β1个∗Ť+β2∗Ť2。。。\beta_{my\_variable}=\beta_0+\beta_1*t+\beta_2*t^2... 可能的解决方案 1）分割数据集我看了这个示例（实验课程的第2部分），但是创建一个单独的数据集似乎很复杂，计算量大，而且不是很直观... 2）降级模型-coxvc软件包该coxvc包提供了处理问题的一种优雅的方式-这里有一个手动。问题在于作者不再开发该软件包（最新版本是自2007年5月23日以来），经过一些电子邮件对话，我已经使该软件包起作用，但是我的数据集运行了5个小时（140 000项），并在此期间结束时给出极端估算。您可以在这里找到稍微更新的软件包 -我基本上只是更新了plot函数。这可能只是一个调整问题，但是由于该软件无法轻松提供置信区间，并且该过程非常耗时，因此我现在正在寻找其他解决方案。 3）timereg包令人印象深刻的timereg软件包也解决了这个问题，但是我不确定如何使用它，也无法给我一个顺利的过程。 4）分数多项式时间（FPT）模型我发现Anika Buchholz在“评估随时间变化的疗法和预后因素的长期效果 ”方面的出色论文，在涵盖不同模型方面做得很好。她的结论是，Sauerbrei等人提出的FPT似乎最适合于时间相关系数： FPT非常擅长检测时变效应，而“降低秩次”方法会导致模型过于复杂，因为它不包括时变效应的选择。研究似乎很完整，但对我来说却有点遥不可及。自从她碰巧与Sauerbrei合作以来，我还有些纳闷。听起来似乎不错，但我想可以使用mfp软件包进行分析，但是我不确定如何做。 5）cmprsk软件包我一直在考虑进行竞争性风险分析，但是计算非常耗时，因此我改用常规的Cox回归。该CRR有thoug时间依赖性协变量的选项： .... cov2 matrix of covariates that will be multiplied by functions of time; if …

17 r regression survival cox-model

2

预测流失的生存模型-时变预测因子？

我正在寻找一个用于预测客户流失的预测模型，并希望使用一个适合于个人期间训练数据集的离散时间生存模型（每个客户一行，他们处于危险状态的离散时期，带有事件指标–等于1如果流失发生在那个时期，则为0）。我使用Singer和Willet的技术使用普通逻辑回归拟合模型。客户流失可以在一个月内的任何地方发生，但是直到月底我们才知道（例如，他们离开该月的某个时间）。24个月用于培训。使用的时间变量是样本的原始时间-截至2008年12月31日，所有活跃的客户-截至2009年1月，他们都收到t = 0（这不是经典的实现方式，但我相信构建时的方式预测模型与传统统计模型的对比）。使用的协变量是客户在该时间点的任期。构造了一系列协变量-有些协变量在数据集的行中（对于给定的客户）不会改变，而有些则会。这些时变协变量是问题所在，也是使我质疑生存率预测的生存模型的原因（与常规分类器相比，该分类器根据当前快照数据预测未来x个月的波动）。时不变的描述了前一个月的活动，预计将是重要的触发因素。至少基于我当前的想法，这种预测模型的实现是在每个月底为客户群打分，计算下个月某个时间流失的可能性/风险。然后在接下来的1,2或3个月内再次使用。然后用于接下来的1,2,3,4,5,6个月。对于3个月和6个月的客户流失率，我将使用估计的生存曲线。问题：在考虑评分时，我该如何纳入时变预测变量？似乎我只能对时不变的预测变量评分，或者包括那些时不变的预测变量，您必须使它们成为时不变的-设置为“现在”值。有人对这种生存模型的使用有经验或想法吗？基于@JVM的更新：问题不在于估计模型，解释系数，使用训练数据绘制有趣的协变量值的危险/生存图等。问题在于使用模型来预测给定客户的风险。说在本月底，我想给仍然是该模型活跃客户的每个人评分。我想预测该风险估计x个周期（下个月月底关闭帐户的风险。从现在起两个月末关闭帐户的风险，等等）。如果存在随时间变化的协变量，则它们的值在以后的任何时期都是未知的，那么如何利用该模型？最终更新：人员时间段数据集将为每个人以及每个处于风险期间的时间段都有一个条目。假设有J个时间段（可能是J = 1 ... 24，为24个月），我建立了一个离散的时间生存模型，为简单起见，我们将时间T视为线性，并且有两个协变量X和Z，其中X是时间-不变，这意味着第一个人在每个周期中都是恒定的，并且Z是随时间变化的，这意味着第一个人的每个记录都可以采用不同的值。例如，X可能是客户性别，Z可能是上个月他们对公司的价值。第j个时间段中第i个人的危害的logit模型为： logit(h(tij))=α0+α1Tj+β1Xi+β2Zijlogit(h(tij))=α0+α1Tj+β1Xi+β2Zijlogit(h(t_{ij}))=\alpha_{0}+\alpha_{1}T_{j}+\beta_{1}X_{i}+\beta_{2}Z_{ij} 因此，问题在于，当使用时变协变量并使用新数据进行预测（到尚未看到的未来）时，是未知的。ZjZjZ_{j} 我能想到的唯一解决方案是：不要使用像Z这样的时变协变量。这会大大削弱模型来预测搅动事件，尽管例如，因为看到Z的减少会告诉我们客户正在脱离并可能准备离开。使用随时间变化的协变量但滞后（如Z在上方），这使我们能够预测出我们滞后了变量的多个周期（再次考虑对新的当前数据进行评分的模型）。使用随时间变化的协变量，但在预测中将其保留为常数（因此，该模型适合于变化的数据，但对于预测，我们将其保留为常数，并模拟这些值的变化（如果稍后实际观察到的话）将如何影响搅动风险。使用时变协变量，但根据已知数据的预测来估算其未来值。例如，预测每个客户的。ZjZjZ_{j}

17 survival predictive-models churn

2

如何在Cox回归中解释Exp（B）？

我是一名医学生，试图了解统计信息（！）-请保持温柔！;）我正在写一篇包含大量统计分析的文章，其中包括生存分析（Kaplan-Meier，Log-Rank和Cox回归）。我对数据进行了Cox回归，试图找出两组患者（高风险或低风险患者）的死亡之间是否存在显着差异。我在Cox回归中添加了几个协变量来控制它们的影响。 Risk (Dichotomous) Gender (Dichotomous) Age at operation (Integer level) Artery occlusion (Dichotomous) Artery stenosis (Dichotomous) Shunt used in operation (Dichotomous) 我从协变量列表中删除了动脉闭塞，因为其SE极高（976）。所有其他SE介于0.064和1,118之间。这是我得到的： B SE Wald df Sig. Exp(B) 95,0% CI for Exp(B) Lower Upper risk 2,086 1,102 3,582 1 ,058 8,049 ,928 69,773 gender -,900 ,733 1,508 …

17 regression survival hazard

4

在生存分析中使用对数秩与Mantel-Haenszel方法来计算危险比的优缺点是什么？

总结两条生存曲线比较的一种方法是计算危险比（HR）。有（至少）两种方法可以计算该值。 Logrank方法。作为Kaplan-Meier计算的一部分，计算每个组（和）中观察到的事件（通常为死亡）的数量，以及假设生存时间没有差异的零假设（和）的预期事件的数量。。则危险比为： OaOaOaObObObEaEaEaEbEbEbHR=(Oa/Ea)(Ob/Eb)HR=(Oa/Ea)(Ob/Eb) HR= \frac{(Oa/Ea)}{(Ob/Eb)} Mantel-Haenszel方法。首先计算V，它是每个时间点的超几何差异的总和。然后计算危险比为：我从Machin，Cheung和Parmar，Survival Analysis的第3章获得了这两个方程。该书指出，这两种方法通常提供非常相似的方法，而书中的示例确实如此。HR=exp((Oa−Ea)V)HR=exp⁡((Oa−Ea)V) HR= \exp\left(\frac{(Oa-Ea)}{V}\right) 有人给我举了一个例子，其中两种方法相差三倍。在此特定示例中，很显然对数秩估计是明智的，而Mantel-Haenszel估计值相差甚远。我的问题是，对于何时最佳选择危险比的对数估计，以及何时最佳选择Mantel-Haenszel估计，是否有人有任何一般性建议？与样本量有关吗？领带数量？样本数量比例？

17 survival hazard

4

累积危害函数的直觉（生存分析）

我试图对精算科学的每个主要功能（特别是对于Cox比例危害模型）有所了解。这是我到目前为止的内容： f(x)f(x)f(x)：从开始的时间开始，到您死亡的概率分布。 F(x)F(x)F(x)：仅累积分布。在时间TTT，将有百分之几的人口死亡？ S(x)S(x)S(x)：1−F(x)1−F(x)1-F(x)。在时间TTT，人口中还活着的百分比是多少？ h(x)h(x)h(x)：危险函数。在给定的时间TTT，仍然活着的人中，这可以用来估计在下一个时间间隔内将有多少人死亡，或者如果时间间隔-> 0，则是“瞬时”死亡概率。 H(x)H(x)H(x)：累积危害。不知道。组合危险值（尤其是连续危险值）的背后是什么想法？如果我们使用一个离散的例子来说明四个季节的死亡率，那么危害函数如下：从春季开始，每个人都还活着，有20％会死亡现在在夏天，剩下的人中有50％会死现在在秋天，剩下的人中有75％将死最后的季节是冬天。在剩下的人中，有100％将死那么累积危害是20％，70％，145％，245％？这是什么意思，为什么有用？

17 probability survival hazard

2

当我们只有关于当前素食者的调查数据时，如何计算对素食主义者的平均坚持时间？

调查了随机样本。他们被问是否吃素食。如果他们回答“是”，他们还被要求说明他们吃素饮食已经连续多长时间了。我想使用此数据来计算对素食主义的平均坚持时间。换句话说，当某人成为素食主义者时，我想知道他们平均会长期保持素食。假设：所有受访者都给出了正确准确的答复世界是稳定的：素食主义的流行没有改变，平均遵守时间也没有改变。到目前为止我的推理我发现分析世界的玩具模型很有帮助，每年年初两个人成为素食主义者。每次，他们其中一名保持素食一年，另一年保持三年。显然，这个世界的平均遵守时间为（1 + 3）/ 2 = 2年。这是说明该示例的图形。每个矩形代表一个素食主义时期：假设我们在第4年中期（红线）进行了调查。我们得到以下数据：如果从第3年开始的任何一年进行调查，我们将获得相同的数据。（2 * 0.5 + 1.5 + 2.5）/ 4 = 1.25 我们低估了我们的假设，因为我们假设所有人在调查后都不再是素食主义者，这显然是错误的。为了获得接近于这些参与者保持素食的真实平均时间的估计，我们可以假设他们平均报告了素食主义时期的一半时间，并且将报告的持续时间乘以2。从人群中（就像我正在分析的人群），我认为这是一个现实的假设。至少它会给出正确的期望值。但是，如果只做一倍，我们的平均值为2.5，这被高估了。这是因为人保持素食的时间越长，他在当前素食者样本中的可能性就越大。然后，我认为当前素食者样本中某人的概率与他们的素食主义时长成正比。为了解决这种偏见，我尝试将当前素食者的人数除以他们预计的坚持时间：但是，这也会给出错误的平均值：（2 * 1 +⅓* 3 +⅕* 5）/（2 +⅓+⅕）= 4 / 2.533333 = 1.579年如果将素食者的人数除以他们的正确坚持时间，就会得出正确的估计：（1 +⅓*（1 + 3 + 5））/（1 +⅓* 3）= 2年但是，如果我使用预测的坚持时间是行不通的，那是我实际拥有的全部。我不知道还能尝试什么。我读了一些有关生存分析的信息，但是我不确定在这种情况下如何应用它。理想情况下，我还希望能够计算90％的置信区间。任何提示将非常感谢。编辑：可能上面的问题没有答案。但是还有另一项研究随机询问了人们是否是素食主义者，以及过去有多少次素食主义者。我也知道学习和其他方面每个人的年龄。也许可以将此信息与当前素食者的调查结合使用，以某种方式获得平均值。实际上，我所说的研究只是其中的一个难题，但它是非常重要的一个难题，我想从中得到更多。

16 survival mean missing-data survey weighted-mean

3

危险率背后的直觉

我对危险率的定义方程感到困惑。我知道了危险率是多少，但我只是不明白方程式如何表达这种直觉。如果是一个随机变量，表示某个时间间隔上某人的死亡时间。那么危险率是：xxx[0,T][0,T][0,T] h(x)=f(x)1−F(x)h(x)=f(x)1−F(x)h(x)=\frac{f(x)}{1-F(x)} 其中F(x)F(x)F(x)表示直到时间点x \ in [0，T]的死亡概率x∈[0,T]x∈[0,T]x\in[0,T]， 1−F(x)1−F(x)1-F(x)表示直到时间点x \ in [0，T]都存活的概率x∈[0,T]x∈[0,T]x\in[0,T]，而f(x)f(x)f(x)是在x点死亡的概率xxx。用f（x）除以f(x)f(x)f(x)生存率如何解释下一个\ Delta t中瞬时死亡概率的直觉ΔtΔt\Delta t？难道不是f(x)f(x)f(x)，使危险率的计算变得微不足道吗？

16 survival intuition hazard

1

在原假设下，可交换样本背后的直觉是什么？

排列检验（也称为随机检验，重新随机检验或精确检验）非常有用，并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是，在使用这种检验时，一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是，当有两个以上的示例（如在coinR包中实现的示例）时，也可以应用这种方法。您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗？这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。注意：提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。更新：假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1：1。分别Par1在V1（基准），V2（3个月后）和V3（1年后）时测量了参数1 。根据特征A，所有50个主题都可以分为2组；正值= 20，负值=30。它们也可以基于特征B细分为另外2组；B阳性= 15，B阴性=35。现在，我具有Par1所有访问中所有受试者的值。在可交换性的假设下，如果可以，我是否可以在Par1使用置换测试的水平之间进行比较： -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较？ -将具有特征A的对象与具有V2的特征B的对象进行比较？ -比较在V2具有特征A的对象与在V3具有特征A的对象？ -在哪种情况下，这种比较是无效的，并且违反了可交换性的假设？

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

1

危害比率可以转化为生存时间中位数的比率吗？

在一篇描述生存分析结果的论文中，我读到了一条陈述，该陈述暗示可以使用以下公式将危险比（HR）转换为中位生存时间比（M1M1M_1和M2M2M_2）： HR=M1M2HR=M1M2HR = \frac{M_1}{M_2} 我敢肯定，当人们不能假设成比例的风险模型时，它就不成立了（因为如果HR定义不明确，那就没有用了）。但是我怀疑，即使那样，它对于指数分布以外的任何生存分布也将不起作用。我的直觉对吗？

15 survival hazard

3

考克斯模型与逻辑回归

假设我们遇到以下问题：预测未来3个月内最有可能停止在我们商店购物的客户。对于每个客户，我们都知道他们开始在我们的商店购买商品的月份，此外，我们还具有每月汇总的许多行为功能。“老大”的客户已经买了五十个月了。让我们表示自客户开始通过（）开始购买以来的时间。可以假设客户数量很大。如果客户停止购买三个月然后又回来，则将其视为新客户，因此一个事件（停止购买）只能发生一次。tttt∈[0,50]t∈[0,50]t \in [0, 50] 我想到了两种解决方案： Logistic回归 -对于每个客户和每个月（可能是最近三个月除外），我们可以说客户是否停止购买，因此我们可以对每个客户和每个月进行一次观察。我们可以将自开始以来的月数用作分类变量，以获取等效的基本危害函数。扩展Cox模型 -也可以使用扩展Cox模型对该问题进行建模。看来这个问题更适合生存分析。问题：在类似问题中进行生存分析有哪些优势？生存分析是出于某种原因而发明的，因此必须具有一定的优势。我对生存分析的知识不是很深，我认为使用逻辑回归也可以实现Cox模型的大多数潜在优势。可以使用ttt和分层变量的相互作用获得等效的分层Cox模型。可以通过将种群分为几个亚群并为每个亚群估计LR来获得交互作用Cox模型。我看到的唯一好处是Cox模型更加灵活。例如，我们可以轻松地计算出客户6个月后停止购买的可能性。

15 logistic survival cox-model

2

如何使用Cox比例风险模型进行交叉验证？

假设我已经针对一个数据集（模型构建数据集）中特定疾病的发生构建了一个预测模型，现在想检查该模型在新数据集（验证数据集）中的运行情况。对于使用Logistic回归构建的模型，我将根据从模型构建数据集获得的模型系数计算验证数据集中每个人的预测概率，然后在将某些概率按临界值二等分后，可以构建一个2x2的表格这样我就可以计算出真实的阳性率（敏感性）和真实的阴性率（特异性）。此外，我可以通过更改截止值来构建整个ROC曲线，然后获得ROC图的AUC。现在假设我实际上有生存数据。因此，我在模型构建数据集中使用了Cox比例风险模型，现在想检查模型在验证数据集中的运行情况。由于基准风险不是Cox模型中的参数函数，因此我看不到如何基于在模型构建数据集中获得的模型系数来获得验证数据集中每个人的预测生存概率。那么，我该如何检查模型在验证数据集中的表现呢？有确定的方法可以做到这一点吗？如果是，它们是否在任何软件中实现？在此先感谢您的任何建议！

15 predictive-models cross-validation survival roc

3

培训，测试，验证生存分析问题

我一直在这里浏览各种线程，但我认为我的确切问题没有得到回答。我有约50,000名学生及其辍学时间的数据集。我将使用大量潜在的协变量进行比例风险回归。我还将对辍学/留学情况进行逻辑回归。主要目标是为新的学生群体做预测，但我们没有理由相信他们与去年的学生群体会有很大不同。通常，我没有这么多的数据，并且通过某种形式的惩罚进行模型拟合，但是这次我想将int训练和测试数据集分离，然后在训练集上进行变量选择。然后使用测试数据集估算参数和预测能力。这是个好策略吗？如果没有，哪个更好？欢迎引用，但不是必须的。

14 cross-validation survival train

3

如何从Cox PH模型获得生存时间的预测？

我想针对所有（几乎）全部在随访结束时（例如一年）死亡的参与者建立一个全因死亡率的预测模型（Cox PH）。我不想预测某个时间点的绝对死亡风险，而是想预测每个人的生存时间（以月为单位）。是否有可能在R中获得这样的预测（例如从一个coxph对象），如果可以，我该怎么做？提前谢谢了！

14 survival prediction cox-model

Questions tagged «survival»