Questions tagged «cox-model»

Cox比例风险回归是用于生存分析的半参数方法。无需假设分布形式,仅协变量中单位增加的影响是一个常数倍。

3
如何用英语报告Cox比例风险模型的风险比率?
我的理解是一个危险比从Cox比例风险模型进行比较的给定因子的危险率与参考组的效果。您如何将其报告给不了解统计信息的受众? 让我们尝试举一个例子。假设我们让人们参与研究他们购买沙发需要多长时间。我们对3年进行右审查。对于此示例,我们有两个因素:年龄<30或> = 30,无论他们是否养猫。结果表明,“家猫”与参考组(年龄<30,“不家猫”)的危险比为1.2,且显着(例如p <0.05)。 我是否正确地说这一切:猫主人在3年内有更多活动(购买沙发),或者活动时间(猫购买)对于猫主人来说更快,还是这两种方式的结合? 编辑:假设该事件是他们在这段时间内首次购买沙发(如果发生)。此模型无法帮助我们分析该时段内的多次购买。

1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

1
如何从脆弱模型(使用R coxph)生成预测的幸存者曲线?
我想计算一个脆弱的考克斯比例风险模型的预测幸存者功能[使用生存包]。看起来当脆弱项在模型中时,无法计算预测的幸存者功能。 ## Example require(survival) data(rats) ## Create fake weight set.seed(90989) rats$weight<-runif(nrow(rats),0.2,0.9) ## Cox model with gamma frailty on litter fit <- coxph(Surv(time, status) ~ rx+weight+frailty(litter,dist="gamma"), data = rats) ## Compute survival curve from the cox model for rx=0 and weight=0.5 kg plot(survfit(fit, newdata=data.frame(rx=0,weight=0.5)),xlab = "time", ylab="Survival") ## Running this line, …

2
如何使用R估计Cox模型中的基线危害函数
我需要估计基线风险函数以时间依赖性Cox模型λ0(t)λ0(t)\lambda_0(t) λ(t)=λ0(t)exp(Z(t)′β)λ(t)=λ0(t)exp⁡(Z(t)′β)\lambda(t) = \lambda_0(t) \exp(Z(t)'\beta) 在我学习生存过程时,我记得累积危险函数的直接导数()并不是一个好的估计器,因为Breslow估计器提供了阶跃函数。λ0(t)dt=dΛ0(t)λ0(t)dt=dΛ0(t)\lambda_0(t) dt = d\Lambda_0(t) 那么,R中是否可以直接使用任何函数?或对此主题有任何参考吗? 我不确定是否值得提出另一个问题,所以我只添加一些背景,为什么基线危害功能对我很重要。下面的公式估算一个受试者的生存时间大于另一个受试者的生存时间的概率。在Cox模型设置下,需要基线危险函数。 λ0(t)λ0(t)\lambda_0(t) P(T1>T2)=−∫∞0S1(t)dS2(t)=−∫∞0S1(t)S2(t)λ2(t)dtP(T1>T2)=−∫0∞S1(t)dS2(t)=−∫0∞S1(t)S2(t)λ2(t)dtP(T_1 > T_2 ) = - \int_0^\infty S_1(t) dS_2(t) = - \int_0^\infty S_1(t)S_2(t)\lambda_2(t)dt
13 r  survival  cox-model 

2
如何通过正确的检查创建玩具生存(事件发生时间)数据
我希望创建一个正确检查的玩具生存(事件发生时间)数据,并按照比例风险和恒定基线风险进行某种分布。 我创建数据的方法如下,但是在将Cox比例风险模型拟合到模拟数据后,我无法获得接近真实值的估计风险比。 我做错什么了? R代码: library(survival) #set parameters set.seed(1234) n = 40000 #sample size #functional relationship lambda=0.000020 #constant baseline hazard 2 per 100000 per 1 unit time b_haz <-function(t) #baseline hazard { lambda #constant hazard wrt time } x = cbind(hba1c=rnorm(n,2,.5)-2,age=rnorm(n,40,5)-40,duration=rnorm(n,10,2)-10) B = c(1.1,1.2,1.3) # hazard ratios (model coefficients) hist(x %*% …

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

1
舍恩菲尔德残差
在具有多个变量的Cox比例风险模型中,如果对于这些变量之一,Schoenfeld残差不是平坦的,这是否会使整个模型无效?或者是否可以忽略效果不佳的变量?即,解释其他变量的系数,但不解释性能差的变量的结果系数。 处理Schoenfeld残差不平坦的模型有几种标准方法。暂时假设我们做不到。

2
如何从Cox PH模型计算预测的危险率?
我有以下Cox PH模型: (时间,事件)〜X + Y + Z 我想获得预测的危险率(我说的是风险率不危险比)给出的具体值X,Y,Z。我知道muhaz R软件包可以计算观察到的危险率,但是我对预测模型感兴趣。 有没有办法在R中做到这一点?
11 r  survival  hazard  cox-model 

4
如何最好地分析基于医院的RCT中的住院时间数据?
我很想知道是否存在关于分析来自RCT的住院时间(LOS)数据的最佳方法的共识。这通常是一个非常偏斜的分布,其中大多数患者在几天到一周内出院,但是其余患者的停留时间非常不可预测(有时甚至很长),形成分布的右尾。 分析选项包括: t检验(假设不可能出现正态性) 曼·惠特尼U检验 对数秩检验 组分配的Cox比例风险模型条件 这些方法中的任何一种具有明显更高的功效吗?

2
Cox PH分析和协变量选择中的倾向得分加权
关于对事件生存时间进行Cox比例风险建模时的倾向得分加权(IPTW): 我有前瞻性的注册表数据,我们希望了解大多数情况下患者已经在基线时服用的药物的治疗效果。因此,我不确定如何最好地分析数据。潜在地,一些基线变量在很大程度上受到治疗的影响,而不是相反(例如某些生物标志物)。我对于应该在倾向评分模型中估计权重的哪些协变量以及应该在coxph模型中作为协变量的哪些协变量(如果有的话)不知所措。正确方向的任何提示都将有所帮助!到目前为止,我还没有找到任何有关CoxPh建模的文献。 我认为协变量代表Cox PH协变量应包括代表基线(可能)影响治疗结果的基线治疗,但我不确定。 如何确定应将哪些变量作为协变量包括在Cox模型中,而不是用于计算倾向得分权重? 后续问题: 我了解评估已经开始的某种干预措施的治疗效果的继承问题-即在开始观察之前在患者中普遍存在。关于引入与风险的时间变化相关的偏见(例如,不良副作用在治疗的第一年更加普遍)以及受治疗影响的协变量。如果我没记错的话,这是由于心血管终点和激素替代疗法引起的观察性和随机性差异的原因。另一方面,在我的数据集中,我们有兴趣查看治疗的可能不利影响。 如果我使用倾向评分调整来调查普遍使用者的治疗效果,即在观察开始之前已经使用过药物,则在队列数据中,我们会观察到药物治疗的不利影响(这就是我们所要寻找的)。我可以排除高估与治疗相关的风险的可能性吗?即是说,只要风险显着增加,它是“绝对”没有保护意义的吗? 我无法完全想象一个例子,在这种情况下,这种偏见会导致高估虚假风险关联的风险。

1
CPH,加速故障时间模型或神经网络用于生存分析的比较
我是生存分析的新手,我最近了解到,对于特定目标,可以采用不同的方法进行。我对这些方法的实际实现和适当性感兴趣。 向我介绍了传统的Cox比例危害,加速故障时间模型和神经网络(多层感知器),作为根据患者的时间,状态和其他医学数据获得患者生存的方法。据说这项研究将在五年内完成,目标是每年为新的记录给出生存风险。 我发现了两个实例,这些实例是通过Cox PH选择其他方法的: 我发现“ 如何从Cox PH模型获得生存期的预测 ”,并提到: 如果您对获取特定时间点生存概率的估计特别感兴趣,我将向您介绍参数化生存模型(又称为加速故障时间模型)。这些是在R的生存程序包中实现的,将为您提供参数化的生存时间分布,您可以在其中简单地插入您感兴趣的时间并获取生存概率。 我去了推荐的站点,并在survival软件包中找到了一个函数survreg。 在此评论中建议使用神经网络: 神经网络方法进行生存分析的一个优势是它们不依赖于Cox分析基础的假设... 另一个问题是“ 带有目标向量的R神经网络模型,其输出包含生存预测 ”,给出了一种详尽的方法来确定神经网络和Cox PH中的生存。 用于获得生存的R代码如下所示: mymodel <- neuralnet(T1+T2+T3+T4+T5~covar1+covar2+covar3+..., data=mydata, hidden=1) compute(mymodel,data=mydata) 我去了R论坛,并在“ predict.coxph和predict.survreg ” 问题中找到了这个答案: 确实,从的predict()功能中,coxph您不能直接获得“时间”预测,而只能获得线性和指数风险评分。这是因为,为了获得时间,必须计算基准危害,而且它并不直接,因为它在Cox模型中是隐含的。 我想知道这三个(或两个考虑Cox PH的论点)中哪一个最适合获取感兴趣时间段的生存率?我对在生存分析中使用哪一个感到困惑。

2
R的coxph()究竟如何处理重复的测量?
语境 我试图了解R的coxph()如何接受和处理主题(或患者/客户,如果您愿意的话)的重复条目。有些人称这种长格式,有些人称其为“重复措施”。 例如,请参见以下答案部分中包含ID列的数据集: 协变量随时间变化的最佳Cox模型 还要假设协变量始终随时间变化,并且恰好有一个检查变量(即事件),它是二进制的。 问题 1)在上述链接的答案中,如果在调用coxph()时未提供ID作为参数,结果是否应与将cluster(ID)作为coxph()的参数包含在内? 我试图搜索文档,但以下内容似乎并未明确说明(1):https : //stat.ethz.ch/pipermail/r-help//2013-July/357466.html 2)如果对(1)的回答为“否”,那么(数学上)为什么?似乎coxph()中的cluster()根据pg上的“ cluster”小节在主题之间寻求关联。20点 https://cran.r-project.org/web/packages/survival/survival.pdf 3)含糊的问题:重复测量的coxph()与R的脆弱包装回归方法相比如何? 附加物 以下是有关使用cluster(ID)的提示: 是否存在可重复测量的logrank测试版本? 和: https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html GEE方法:将“ + cluster(subject)”添加到coxph的模型语句中混合模型方法:将“ +(1 | subject)”添加到coxme的模型语句中。 提前致谢!

2
优势比和危险比之间是否存在功能差异?
在逻辑回归中,优势比为2意味着在预测变量增加1个单位的情况下,该事件的可能性高2倍。在Cox回归中,危险比为2意味着,如果预测变量增加一个单位,则该事件在每个时间点的发生频率将是两倍。这些实际上不是一回事吗? 如果我们可以从逻辑回归的优势比中获得功能上相同的信息,那么进行Cox回归和获得风险比的优势是什么?

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
Kaplan-Meier曲线似乎与Cox回归不同
在R中,我正在对癌症患者进行生存数据分析。 我已经在CrossValidated和其他地方阅读了有关生存分析的非常有用的文章,并认为我了解如何解释Cox回归结果。然而,一个结果仍然困扰着我... 我正在比较生存与性别。Kaplan-Meier曲线显然对女性患者有利(我检查了几次我添加的图例是正确的,最大存活时间为4856天的患者确实是女性): 而Cox回归正在返回: Call: coxph(formula = survival ~ gender, data = Clinical) n= 348, number of events= 154 coef exp(coef) se(coef) z Pr(>|z|) gendermale -0.3707 0.6903 0.1758 -2.109 0.035 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 exp(coef) exp(-coef) lower .95 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.