Questions tagged «survival»

生存分析对事件数据的时间进行建模,通常是死亡时间或故障时间。审查数据是生存分析的常见问题。


3
机器学习模型(GBM,NN等)如何用于生存分析?
我知道传统的统计模型,例如Cox比例风险回归和一些Kaplan-Meier模型,可以用来预测直到下次事件发生的天数,例如失败等,例如生存分析 问题 机器学习模型(例如GBM,神经网络等)的回归版本如何用于预测事件发生之前的天数? 我相信仅将发生之前的天数用作目标变量并仅运行回归模型是行不通的?为什么不起作用?如何解决? 我们可以将生存分析问题转换为分类,然后获得生存概率吗?如果那么该如何创建二进制目标变量? 机器学习方法与Cox比例风险回归和Kaplan-Meier模型等的优缺点是什么? 想象一下样本输入数据的格式如下 注意: 传感器每隔10分钟对数据进行ping操作,但有时由于网络问题等原因可能会丢失数据,如带有NA的行所示。 var1,var2,var3是预测变量,解释变量。 failure_flag告知计算机是否发生故障。 每个机器ID每10分钟间隔有最近6个月的数据 编辑: 预期的输出预测应采用以下格式 注意:我想预测未来30天每天每台计算机发生故障的可能性。

2
赖曼在生存分析中对审查的解释
我已经阅读了什么是审查,以及如何在生存分析中考虑它,但是我想听听它的数学定义少而定义直观(图片很棒!)。谁能为我提供以下解释:1)审查和2)它如何影响像Kaplan-Meier曲线和Cox回归之类的事情?

1
用层和层-协变量相互作用拟合Cox模型与拟合两个Cox模型是否不同?
在Harrell的《回归建模策略》(第二版)中,有一节(第20.1.7节)讨论了Cox模型,其中包括我们也要估计其对生存率有主要影响的协变量(年龄在以下示例中)与我们不想估计其主要影响的协变量(在以下示例中为性别)。 具体而言:假设在总体中,(未知,真实)危险遵循模型ħ (吨)h(t)h(t) h (t )= { hF(t )经验(β1个年龄),H米(t )经验((β1个+ β2)年龄),对于女性患者男性患者h(t)={hf(t)exp⁡(β1age),for female patienshm(t)exp⁡((β1+β2)age),for male patiensh(t) = \begin{cases} h_f(t) \exp(\beta_1 \textrm{age}), & \textrm{for female patiens} \\ h_m(t) \exp((\beta_1 + \beta_2) \textrm{age}), & \textrm{for male patiens} \end{cases} 其中HFhfh_f,H米hmh_m是未知的,真实的,不应被估计的基准风险函数和β1个β1\beta_1,β2β2\beta_2是未知的,真正的参数来从数据中估算出来。 (这个例子几乎是从书中摘录的。) 现在,Harrell表示可以将以上情况重写为分层Cox模型模型1: h (t )= h性别(t )经验(β1个年龄 + β2X)h(t)=hgender(t)exp⁡(β1age+β2X)h(t) = h_{\textrm{gender}}(t) \exp(\beta_1 \textrm{age} + …

2
普通英语使用R解释和验证Cox比例风险回归模型
有人可以用简单的英语向我解释我的Cox模型吗? 我使用该函数将以下Cox回归模型拟合到我的所有数据中cph。我的数据保存在名为的对象中Data。变量w,x和y是连续的;z是两个层次的因子。时间以月为单位。我的一些患者缺少变量数据z(注意:下面我已经适当地指出了Harrell博士的建议,即我估算这些值,以避免对我的模型造成偏见,以后会这样做)。 > fit <- cph(formula = Surv(time, event) ~ w + x + y + z, data = Data, x = T, y = T, surv = T, time.inc = 12) Cox Proportional Hazards Model Frequencies of Missing Values Due to Each Variable Surv(time, event) w x y z …

3
如何用英语报告Cox比例风险模型的风险比率?
我的理解是一个危险比从Cox比例风险模型进行比较的给定因子的危险率与参考组的效果。您如何将其报告给不了解统计信息的受众? 让我们尝试举一个例子。假设我们让人们参与研究他们购买沙发需要多长时间。我们对3年进行右审查。对于此示例,我们有两个因素:年龄<30或> = 30,无论他们是否养猫。结果表明,“家猫”与参考组(年龄<30,“不家猫”)的危险比为1.2,且显着(例如p <0.05)。 我是否正确地说这一切:猫主人在3年内有更多活动(购买沙发),或者活动时间(猫购买)对于猫主人来说更快,还是这两种方式的结合? 编辑:假设该事件是他们在这段时间内首次购买沙发(如果发生)。此模型无法帮助我们分析该时段内的多次购买。

1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

4
回归模型,其响应变量是通常发生年度事件的一年中的一天
在这种情况下,我指的是湖泊结冰的那一天。该“冰上”日期每年仅发生一次,但有时根本不发生(如果冬天温暖的话)。因此,在一年中,湖泊可能在第20天(1月20日)结冰,而在另一年,它可能根本不会结冰。 目的是找出冰冻日期的驱动因素。 预测因素将是每年的秋季/冬季气温。年份可能是长期线性趋势的预测指标。 1)整数“一年中的一天”是否是合理的响应变量(如果不是,则是什么?)? 2)如何处理湖泊永不结冰的年份? 编辑: 我不知道这里的礼节是什么,但我认为我会张贴收到的建议的结果。这是论文,开放获取。感谢@pedrofigueira和@cboettig,我对使用的方法获得了很好的反馈。当然,错误是我自己的。

1
如何从脆弱模型(使用R coxph)生成预测的幸存者曲线?
我想计算一个脆弱的考克斯比例风险模型的预测幸存者功能[使用生存包]。看起来当脆弱项在模型中时,无法计算预测的幸存者功能。 ## Example require(survival) data(rats) ## Create fake weight set.seed(90989) rats$weight<-runif(nrow(rats),0.2,0.9) ## Cox model with gamma frailty on litter fit <- coxph(Surv(time, status) ~ rx+weight+frailty(litter,dist="gamma"), data = rats) ## Compute survival curve from the cox model for rx=0 and weight=0.5 kg plot(survfit(fit, newdata=data.frame(rx=0,weight=0.5)),xlab = "time", ylab="Survival") ## Running this line, …

1
生存分析和泊松回归之间有什么区别?
我正在使用给定用户访问站点的次数来处理经典客户流失预测问题,并且我认为泊松回归是建模该用户未来参与度的正确工具。那时我碰到一本关于生存分析和危害建模的书,但我不知道哪种技术最好。 我不想同时研究两个主题,那么使用过去的数据和人口统计来建模用户参与度的最佳方法是什么?

1
比较两条生存曲线以获取配对数据
我想比较两种不同的方法来检测生存分析中的状态变化。跟踪一组对象的时间较长(很多年),并且使用了两种检查方法来检查状态是否发生了变化。一种方法用于每年两次检查每个受试者,第二种方法用于每年一次检查每个受试者。问题是,这两种方法在检测状态变化的能力方面是否存在系统差异。 我想到的测试是对数秩测试,以查看两种方法的Kaplan-Meier曲线是否不同。我想知道在执行对数秩检验时,生存曲线是否“成对”(即,两种方法用于同一受试者)是否存在问题。它是否违反了对数秩检验中的假设,或者仅仅是效率低下的检验,因为它没有考虑到两条曲线是相关的?是否有人建议进行替代分析,以说明观察结果中的依赖性? 也许这不是问题,也许我正在思考。 好吧,我不知道状态改变的真实时间,只有方法检测到状态改变的时间点才知道。我曾经想到的是将生存时间设置为上一次未检测到状态变化的检查与检测到状态变化的检查之间的时间间隔的中点。与每年使用两次的方法相比,这可以弥补每年仅检查一次对象的方法的缺点。然后根据这些数据构建生存曲线。

2
如何使用R估计Cox模型中的基线危害函数
我需要估计基线风险函数以时间依赖性Cox模型λ0(t)λ0(t)\lambda_0(t) λ(t)=λ0(t)exp(Z(t)′β)λ(t)=λ0(t)exp⁡(Z(t)′β)\lambda(t) = \lambda_0(t) \exp(Z(t)'\beta) 在我学习生存过程时,我记得累积危险函数的直接导数()并不是一个好的估计器,因为Breslow估计器提供了阶跃函数。λ0(t)dt=dΛ0(t)λ0(t)dt=dΛ0(t)\lambda_0(t) dt = d\Lambda_0(t) 那么,R中是否可以直接使用任何函数?或对此主题有任何参考吗? 我不确定是否值得提出另一个问题,所以我只添加一些背景,为什么基线危害功能对我很重要。下面的公式估算一个受试者的生存时间大于另一个受试者的生存时间的概率。在Cox模型设置下,需要基线危险函数。 λ0(t)λ0(t)\lambda_0(t) P(T1>T2)=−∫∞0S1(t)dS2(t)=−∫∞0S1(t)S2(t)λ2(t)dtP(T1>T2)=−∫0∞S1(t)dS2(t)=−∫0∞S1(t)S2(t)λ2(t)dtP(T_1 > T_2 ) = - \int_0^\infty S_1(t) dS_2(t) = - \int_0^\infty S_1(t)S_2(t)\lambda_2(t)dt
13 r  survival  cox-model 

1
当因变量具有“截止”时建模
如果我使用的任何术语不正确,请提前道歉。我欢迎任何纠正。如果我所说的“截断”使用不同的名称,请告诉我,我可以更新问题。 我感兴趣的情况是:您有自变量和一个因变量。我将保持模糊,但是假设为这些变量获得良好的回归模型将相对简单。xx\bf{x}yyy 但是,您要创建的模型是针对自变量xx\bf{x}和因变量w=min(y,a)w=min(y,a)w = \min(y,a),其中aaa是y范围内的某个固定值yyy。同样,您有权访问的数据不包含yyy,仅包含www。 一个(有些不切实际的)例子是,如果您试图模拟人们将领取养老金的年限。在这种情况下,xx\bf{x}可能是相关信息,例如性别,体重,每周运动时间等。“基本”变量yyy是预期寿命。但是,您可以访问并试图在模型中预测的变量将是w=min(0,y−r)w=min(0,y−r)w = \min(0, y-r),其中r是退休年龄(为简单起见,它是固定的)。 在回归建模中是否有解决此问题的好方法?

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.