Questions tagged «survival»

生存分析对事件数据的时间进行建模,通常是死亡时间或故障时间。审查数据是生存分析的常见问题。

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
对数正态生存函数的平均生存时间
我发现了大量公式可以显示如何找到指数分布或Weibull分布的平均生存时间,但对数正态生存函数的运气却要差得多。 给定以下生存函数: 小号(t )= 1 − ϕ [ ln(吨)- μσ]S(t)=1−ϕ[ln⁡(t)−μσ]S(t) = 1 - \phi \left[ {{{\ln (t) - \mu } \over \sigma }} \right] 如何找到平均生存时间。据我了解,是估计的比例参数,而参数生存模型的exp(\ beta)是\ mu。虽然我觉得我可以操纵它象征性地获得牛逼全部由自己设定S(T)= 0.5后,有什么特别绊倒我是如何处理\披的东西如R时,它实际上归结为输入所有的估计和获得与此同时。β μσσ\sigmaββ\betaμμ\muϕϕ\phi 到目前为止,我一直在生成生存函数(及相关曲线),如下所示: beta0 <- 2.00 beta1 <- 0.80 scale <- 1.10 exposure <- c(0, 1) t <- seq(0, 180) linmod <- beta0 …
10 survival 

2
如何使用Cox模型在R中进行ROC分析
我创建了一些Cox回归模型,我想看看这些模型的性能如何,我认为类似于本文使用的ROC曲线或c统计量可能有用: JN Armitage och JH van der Meulen,“使用行政数据和皇家外科医学院的查尔森评分来鉴定手术患者的合并症”,《英国外科杂志》,第1卷。97,数字 5,ss。772-781,2010年下半年。 阿米蒂奇采用Logistic回归,但我不知道是否有可能使用来自生存包模式,survivalROC给这个是可能的暗示,但我无法弄清楚如何得到这工作与常规Cox回归。 如果有人向我展示如何在此示例中进行ROC分析,我将不胜感激: library(survival) data(veteran) attach(veteran) surv <- Surv(time, status) fit <- coxph(surv ~ trt + age + prior, data=veteran) summary(fit) 如果可能的话,我将感谢原始的c静态输出和一个漂亮的图表 谢谢! 更新资料 非常感谢您的回答。@Dwin:我只是想确保在选择答案之前我已经理解了。 据我理解,根据DWin的建议进行的计算: library(survival) library(rms) data(veteran) fit.cph <- cph(surv ~ trt + age + prior, data=veteran, x=TRUE, y=TRUE, surv=TRUE) …
10 r  survival  roc 


2
在参数模型中测试比例风险假设
我知道要在Cox PH模型的上下文中测试比例风险假设,但是我还没有遇到任何与参数模型有关的事情?有没有可行的方法来测试某些参数模型的PH假设? 似乎应该假设参数模型与半参数Cox模型仅略有不同? 例如,如果我想拟合Gompertz死亡率曲线(如下所示),应如何测试PH假设? μXHX(吨)小号X(吨)= a b e一个X + βž= ∫Ť0μX + 吨dt = b (e一个牛逼− 1 )e一个X + βž= exp ( - ħX(t ))μX=一个bË一个X+βžHX(Ť)=∫0ŤμX+ŤdŤ=b(Ë一个Ť-1个)Ë一个X+βž小号X(Ť)=经验值(-HX(Ť))\begin{align} \mu_{x}&=abe^{ax+\beta Z}\\ H_{x}(t)&=\int_{0}^{t}\mu_{x+t}\,dt=b(e^{at}-1)e^{ax+\beta Z}\\ S_{x}(t)&=\text{exp}(-H_{x}(t)) \end{align} 我总体上想问的是:对于参数生存模型,有哪些方法可以评估模型的拟合优度并测试模型的假设(如果有)? 我需要检查参数模型中的PH假设还是仅用于Cox模型?

2
R的coxph()究竟如何处理重复的测量?
语境 我试图了解R的coxph()如何接受和处理主题(或患者/客户,如果您愿意的话)的重复条目。有些人称这种长格式,有些人称其为“重复措施”。 例如,请参见以下答案部分中包含ID列的数据集: 协变量随时间变化的最佳Cox模型 还要假设协变量始终随时间变化,并且恰好有一个检查变量(即事件),它是二进制的。 问题 1)在上述链接的答案中,如果在调用coxph()时未提供ID作为参数,结果是否应与将cluster(ID)作为coxph()的参数包含在内? 我试图搜索文档,但以下内容似乎并未明确说明(1):https : //stat.ethz.ch/pipermail/r-help//2013-July/357466.html 2)如果对(1)的回答为“否”,那么(数学上)为什么?似乎coxph()中的cluster()根据pg上的“ cluster”小节在主题之间寻求关联。20点 https://cran.r-project.org/web/packages/survival/survival.pdf 3)含糊的问题:重复测量的coxph()与R的脆弱包装回归方法相比如何? 附加物 以下是有关使用cluster(ID)的提示: 是否存在可重复测量的logrank测试版本? 和: https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html GEE方法:将“ + cluster(subject)”添加到coxph的模型语句中混合模型方法:将“ +(1 | subject)”添加到coxme的模型语句中。 提前致谢!

2
病例对照研究中的成活率趋势
我提交的一篇文章由于执行生存分析的方法不正确而被拒绝。裁判员除了:“对时间趋势进行生存分析需要更复杂的审查方式”之外,没有留下其他细节或解释。 问题: 在过去的几十年中,吸烟者死亡的额外风险是否有所降低? 数据: 德国有25,000名烟民。在1995年至2014年之间的任何时间,他们都被纳入了该队列。每个吸烟者(在入组时)都已与性别和年龄相匹配的对照组(未吸烟者)进行了匹配。对于整个学习期间死亡的每个人,我都有确切的死亡时间。那些在随访期间未死亡的人将受到审查。该研究旨在检查1995年至2014年期间每年吸烟者的额外死亡风险。 目的是计算: 每年吸烟者和非吸烟者的死亡率发生率,并研究这些趋势 每年(或连续几年)吸烟者死亡的额外风险。 应该如何分析数据?回想一下,1998年被包括在内的某人可能会在2015年去世。是否每年都使用使用开始和结束的计数过程格式的正确方法? 这是裁判员不喜欢的方法: 发病率通过泊松回归法计算。我们在模型中纳入了随访时间作为补偿,并在模型中纳入了年龄,性别,吸烟状况和日历期间(连续两年)。然后,使用R的predict()函数计算每1000人年的比率。偏移量(跟进时间)是指从入学起的整个观察时间(天)。 使用Cox模型估算从研究开始到结束的每个时期吸烟者的相对风险。为简单起见,我们将第一个时期的危险比与最后一个时期的危险比进行了比较。 问题:-一个人(连同他的控制权)可能在1998年被包括在内,因此属于该日历组,但在2006年遭受一个事件。-应该如何布置数据以进行Poisson和Cox回归分析?考克斯的计数过程?什么是开始和停止时间?-在这种情况下如何评估趋势? 需要说明的是:假设某位患者在1998年6月15日首次被观察到,并且经历了1998年12月31日的事件,该患者的时间变量值为730个可能的天中的182.5天,因为该时间段由随后的2年组成。每个时间段内观察到的最大时间为730天。 如果在一个时间段内观察到患者,但在另一个时间段内对患者进行检查(即经历过事件,事件或辍学),那么应该将观察到的天数添加到下一个时间段内吗? 因此,主要问题是后续时间和日历年度(用作连续两个年度的分类变量)的处理。

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
随机效应模型处理冗余
我正在尝试使用重复的二进制结果来处理事件分析。假设到达事件的时间以天为单位,但目前我们将时间离散为几周。我想使用重复的二进制结果来近似估计Kaplan-Meier估计量(但允许协变量)。这似乎是一个回旋的路,但是我正在探索这如何扩展到顺序结果和复发事件。 如果您创建了一个二进制序列,对于在3周内被审查的某人,它看起来像000;对于在4w时被审查的某人,它看起来像0000,而对于在5w时失败的主题,它看起来像是0000111111111111...。(1扩展到最后一个主题然后在研究中进行计算),当您计算特定于周的比例为1s时,您将获得普通的累积发生率(直到获得可变的审查时间,这仅是近似值,但并不等于Kaplan-Meier累积发生率估算值)。 我可以使用GEE用二元逻辑模型拟合重复的二元观测值,而不是像上面那样使时间离散,而要使用时间样条。群集三明治协方差估计器工作得相当好。但是我想通过使用混合效果模型来获得更精确的推断。问题在于第一个1之后的1是多余的。有谁知道一种指定随机效应或指定一种模型的方法,该模型考虑了冗余,从而不会缩小标准误差? 请注意,此设置与Efron的设置不同,因为他使用逻辑模型来估计风险集中的条件概率。我正在估计无条件概率。

2
Kaplan-Meier曲线似乎与Cox回归不同
在R中,我正在对癌症患者进行生存数据分析。 我已经在CrossValidated和其他地方阅读了有关生存分析的非常有用的文章,并认为我了解如何解释Cox回归结果。然而,一个结果仍然困扰着我... 我正在比较生存与性别。Kaplan-Meier曲线显然对女性患者有利(我检查了几次我添加的图例是正确的,最大存活时间为4856天的患者确实是女性): 而Cox回归正在返回: Call: coxph(formula = survival ~ gender, data = Clinical) n= 348, number of events= 154 coef exp(coef) se(coef) z Pr(>|z|) gendermale -0.3707 0.6903 0.1758 -2.109 0.035 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 exp(coef) exp(-coef) lower .95 …

4
如何解释考克斯风险模型的生存曲线?
您如何从考克斯比例风险模型解释生存曲线? 在这个玩具示例中,假设我们对数据age变量有一个cox比例风险模型kidney,并生成了生存曲线。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() 例如,在时间,哪个说法是正确的?还是两者都不对?200200200 陈述1:我们将剩下20%的主题(例如,如果我们有人,那么到200天时,我们应该剩下200个左右), 100010001000200200200200200200 陈述2:对于一个给定的人,他/她有200 20%20%20\%机会在200天生存200200200。 我的尝试:我不认为这两个陈述是相同的(如果我错了,请纠正我),因为我们没有iid假设(所有人的生存时间不是独立地来自一个分布)。在这里我的问题类似于逻辑回归,每个人的危险率取决于该人的。βTxβTx\beta^Tx

1
ML指数分布的估计值(带有检查数据)
在生存分析中,假设rv的生存时间呈指数分布。现在考虑我有i_1 rv的 “结果” 。这些结果中只有一部分实际上是“完全实现”的,即其余观察结果仍然是“有效的”。XiXiX_ix1,…,xnx1,…,xnx_1,\dots,x_nXiXiX_i 如果我想对分布的速率参数进行ML估计,该如何以连贯/适当的方式利用未实现的观测值?我相信它们仍然包含有用的信息以供估算。λλ\lambda 有人可以指导我阅读有关该主题的文献吗?我确定它存在。但是,我很难找到适合该主题的关键字/搜索字词。

2
如何评估适应功能的优劣
尽管我对分类和回归有一定的了解,但我还是生存分析的新手。 对于回归,我们具有MSE和R平方统计量。但是,除了某种图形化的图(KM曲线),我们如何说生存模型A优于生存模型B? 如果可能的话,请举例说明差异(例如R中的rpart包)。您如何证明一棵CART生存树比另一棵CART生存树好?可以使用哪些指标?

1
如何使用R生成具有时间相关协变量的生存数据
我想从包含时间相关协变量的Cox比例风险模型生成生存时间。该模型是 h(t|Xi)=h0(t)exp(γXi+αmi(t))h(t|Xi)=h0(t)exp⁡(γXi+αmi(t))h(t|X_i) =h_0(t) \exp(\gamma X_i + \alpha m_{i}(t)) 其中是从Binomial(1,0.5)和。XiXiX_imi(t)=β0+β1Xi+β2Xitmi(t)=β0+β1Xi+β2Xitm_{i}(t)=\beta_0 + \beta_1 X_{i} + \beta_2 X_{i} t 真实参数值用作γ=1.5,β0=0,β1=−1,β2=−1.5,h0(t)=1γ=1.5,β0=0,β1=−1,β2=−1.5,h0(t)=1\gamma = 1.5, \beta_0 = 0, \beta_1 = -1, \beta_2 = -1.5, h_0(t) = 1 对于与时间无关的协变量(即我生成如下h(t|Xi)=h0(t)exp(γXi)h(t|Xi)=h0(t)exp⁡(γXi)h(t|X_i) =h_0(t) \exp(\gamma X_i) #For time independent case # h_0(t) = 1 gamma <- -1 u <- runif(n=100,min=0,max=1) Xi …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.