Questions tagged «survival»

生存分析对事件数据的时间进行建模,通常是死亡时间或故障时间。审查数据是生存分析的常见问题。

2
如何通过正确的检查创建玩具生存(事件发生时间)数据
我希望创建一个正确检查的玩具生存(事件发生时间)数据,并按照比例风险和恒定基线风险进行某种分布。 我创建数据的方法如下,但是在将Cox比例风险模型拟合到模拟数据后,我无法获得接近真实值的估计风险比。 我做错什么了? R代码: library(survival) #set parameters set.seed(1234) n = 40000 #sample size #functional relationship lambda=0.000020 #constant baseline hazard 2 per 100000 per 1 unit time b_haz <-function(t) #baseline hazard { lambda #constant hazard wrt time } x = cbind(hba1c=rnorm(n,2,.5)-2,age=rnorm(n,40,5)-40,duration=rnorm(n,10,2)-10) B = c(1.1,1.2,1.3) # hazard ratios (model coefficients) hist(x %*% …

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

2
按年龄段划分的大师级头衔资格的平均年龄偏倚?
众所周知,自1950年代以来,国际象棋棋手成功获得大师级头衔的最年轻年龄已大大降低,目前有近30位棋手在15岁生日之前成为大师级棋手。但是,Chess Stack Exchange上有一个问题,询问成为大师的平均年龄是多少?。 有人发布了一个答案,他(我假设是他)查看了六个大师的子集,并得出以下结果: 对于1945年以后出生的球员,平均年龄略高于26岁。 对于1970年以后出生的球员,平均年龄略高于23岁。 对于1975年以后出生的球员,平均年龄略高于22岁。 对于1980年以后出生的玩家,平均年龄为21岁。 对于1985年以后出生的球员,平均年龄不到20岁。 对于1990年以后出生的球员,平均年龄为18.5岁。 (对我来说,尚不完全清楚,例如第一组是否包含1945年以后出生的所有大师(这使它成为下一组的超集)还是仅包含1945年至1970年之间(年龄段)的大师。我认为是前者和我的问题在两种情况下都适用。) 问题在于,在1990年之后出生的玩家在答案发布时(2015年7月)还不到26岁,因此平均“ GM年龄”为26岁是不可能的。答案中最年轻的子集自然会切断任何超过25,而“较旧”的子集则没有。这不歪曲或偏向结果吗?(这是一种选择偏见吗?我没有统计学背景,阅读一些相关的Wikipedia条目也无济于事。)如果是,应该(或可以)减轻这种情况?在“较老的”组中,是否应仅以GM头衔资格的平均计算来考虑在26岁之前获得该头衔的球员?

2
我得出的这种离散分布(递归差分方程)叫什么名字?
我在电脑游戏中遇到了这个发行版,并想进一步了解它的行为。这取决于在给定数量的玩家动作之后是否应该发生某个事件。除此之外的细节无关紧要。它似乎也适用于其他情况,我发现它很有趣,因为它很容易计算并产生一条长尾巴。 每一步nnn,游戏产生均匀的随机数0≤X&lt;10≤X&lt;10 \leq X < 1。如果X&lt;p(n)X&lt;p(n)X < p(n),则触发事件。事件一旦发生,游戏将重置n=0n=0n = 0 并再次运行该序列。我只对发生此问题的事件感兴趣,因为这代表了游戏使用的分布。(此外,有关多个事件的任何问题都可以通过一个事件模型来回答。) 这里的主要“异常”是此分布中的概率参数随时间增加,或者换句话说,阈值随时间增加。在示例中,它线性变化,但我想其他规则也可以适用。经过nnn步或用户的操作后, p(n)=knp(n)=kn p(n) = kn 对于一些常数0&lt;k&lt;10&lt;k&lt;10 < k < 1。在某个特定点nmaxnmaxn_{\max} ,我们得到p(nmax)≥1p(nmax)≥1p(n_{\max}) \geq 1 。仅保证在该步骤发生该事件。 我能够确定 f(n)=p(n)[1−F(n−1)]f(n)=p(n)[1−F(n−1)] f(n) = p(n)\left[1 - F(n - 1)\right] 和 表示PMF和CDF。简而言之,事件在第步将发生的概率等于概率减去事件在任何先前步骤中已经发生的概率。F(n)=p(n)+F(n−1)[1−p(n)]F(n)=p(n)+F(n−1)[1−p(n)] F(n) = p(n) + F(n-1)\left[1 - p(n)\right] f(n)f(n)f(n)F(n)F(n)F(n)nnnp(n)p(n)p(n) 这是我们的朋友蒙特卡洛(Monte Carlo)的情节,很有趣,。中位数为21,平均为22。 k≈0.003k≈0.003k \approx 0.003 这大致相当于数字信号处理的一阶差分方程,这就是我的背景,因此我发现它相当新颖。我也对可以根据任意公式变化的想法感到好奇。p(n)p(n)p(n) …

2
如何从Cox PH模型计算预测的危险率?
我有以下Cox PH模型: (时间,事件)〜X + Y + Z 我想获得预测的危险率(我说的是风险率不危险比)给出的具体值X,Y,Z。我知道muhaz R软件包可以计算观察到的危险率,但是我对预测模型感兴趣。 有没有办法在R中做到这一点?
11 r  survival  hazard  cox-model 

1
功率分析,用于生存分析
如果我假设基因签名可以识别出较低的复发风险,即20%的人群中的事件发生率降低0.5(危险比为0.5),并且我打算使用回顾性队列研究的样本是否需要针对两个假设的组中不相等的数字来调整样本量? 例如,使用Collett,D:《医学研究中的生存数据建模》,第二版-2003年第二版。可以使用以下方法找到所需的事件总数d, d=(Zα/2+Zβ/2)2p1p2(θR)2d=(Zα/2+Zβ/2)2p1p2(θR)2\begin{equation} d = \frac{(Z_{\alpha/2} + Z_{\beta/2})^2}{p_1 p_2 (\theta R)^2} \end{equation} 其中和Z _ {\ beta / 2}分别是标准正态分布的上\ alpha / 2和上\ beta / 2点。Zα/2Zα/2Z_{\alpha/2}Zβ/2Zβ/2Z_{\beta/2}α/2α/2\alpha/2β/2β/2\beta/2 对于特定的值, p1=0.20p1=0.20p_1 = 0.20 p2=1−p1p2=1−p1p_2 = 1 - p_1 θR=−0.693θR=−0.693\theta R = -0.693 α=0.05α=0.05\alpha = 0.05,所以Z0.025=1.96Z0.025=1.96Z_{0.025}= 1.96 β=0.10β=0.10\beta = 0.10,所以Z0.05=1.28Z0.05=1.28Z_{0.05} = 1.28, 并θR=logψR=log0.50=−0.693θR=log⁡ψR=log⁡0.50=−0.693\theta R = \log …

2
如何模拟审查数据
我想知道如何模拟n个Weibull分布寿命的样本,其中包括类型I右删失的观测值。例如,让n = 3,形状= 3,比例= 1,审查率= .15,审查时间= .88。我知道如何生成Weibull样本,但是我不知道如何生成在R中类型为I右删失的删失数据。 T = rweibull(3, shape=.5, scale=1)

2
Cox PH分析和协变量选择中的倾向得分加权
关于对事件生存时间进行Cox比例风险建模时的倾向得分加权(IPTW): 我有前瞻性的注册表数据,我们希望了解大多数情况下患者已经在基线时服用的药物的治疗效果。因此,我不确定如何最好地分析数据。潜在地,一些基线变量在很大程度上受到治疗的影响,而不是相反(例如某些生物标志物)。我对于应该在倾向评分模型中估计权重的哪些协变量以及应该在coxph模型中作为协变量的哪些协变量(如果有的话)不知所措。正确方向的任何提示都将有所帮助!到目前为止,我还没有找到任何有关CoxPh建模的文献。 我认为协变量代表Cox PH协变量应包括代表基线(可能)影响治疗结果的基线治疗,但我不确定。 如何确定应将哪些变量作为协变量包括在Cox模型中,而不是用于计算倾向得分权重? 后续问题: 我了解评估已经开始的某种干预措施的治疗效果的继承问题-即在开始观察之前在患者中普遍存在。关于引入与风险的时间变化相关的偏见(例如,不良副作用在治疗的第一年更加普遍)以及受治疗影响的协变量。如果我没记错的话,这是由于心血管终点和激素替代疗法引起的观察性和随机性差异的原因。另一方面,在我的数据集中,我们有兴趣查看治疗的可能不利影响。 如果我使用倾向评分调整来调查普遍使用者的治疗效果,即在观察开始之前已经使用过药物,则在队列数据中,我们会观察到药物治疗的不利影响(这就是我们所要寻找的)。我可以排除高估与治疗相关的风险的可能性吗?即是说,只要风险显着增加,它是“绝对”没有保护意义的吗? 我无法完全想象一个例子,在这种情况下,这种偏见会导致高估虚假风险关联的风险。

3
危险率,概率密度,生存函数之间的关系证明
我读了一些关于生存分析的文章,大多数教科书都指出 h (t )=林Δ 吨→ 0P(吨&lt; Ť≤ 吨+ Δ 吨| Ť≥ 吨)Δ Ť=F(吨)1 − F(吨)(1 )h(t)=limΔt→0P(t&lt;T≤t+Δt|T≥t)Δt=f(t)1−F(t)(1)h(t)= \lim_{ \Delta t \rightarrow 0} \frac{P(t < T \leq t+\Delta t |T \geq t )}{ \Delta t} =\frac{f(t)}{1-F(t)} (1) 其中是危险率,h (t )h(t)h(t) F(t )=林Δ 吨→ 0P(吨&lt; Ť≤ 吨+ Δ 吨)Δ Ť(2 )f(t)=limΔt→0P(t&lt;T≤t+Δt)Δt(2)f(t)=\lim_{\Delta t \rightarrow …
11 survival 

1
CPH,加速故障时间模型或神经网络用于生存分析的比较
我是生存分析的新手,我最近了解到,对于特定目标,可以采用不同的方法进行。我对这些方法的实际实现和适当性感兴趣。 向我介绍了传统的Cox比例危害,加速故障时间模型和神经网络(多层感知器),作为根据患者的时间,状态和其他医学数据获得患者生存的方法。据说这项研究将在五年内完成,目标是每年为新的记录给出生存风险。 我发现了两个实例,这些实例是通过Cox PH选择其他方法的: 我发现“ 如何从Cox PH模型获得生存期的预测 ”,并提到: 如果您对获取特定时间点生存概率的估计特别感兴趣,我将向您介绍参数化生存模型(又称为加速故障时间模型)。这些是在R的生存程序包中实现的,将为您提供参数化的生存时间分布,您可以在其中简单地插入您感兴趣的时间并获取生存概率。 我去了推荐的站点,并在survival软件包中找到了一个函数survreg。 在此评论中建议使用神经网络: 神经网络方法进行生存分析的一个优势是它们不依赖于Cox分析基础的假设... 另一个问题是“ 带有目标向量的R神经网络模型,其输出包含生存预测 ”,给出了一种详尽的方法来确定神经网络和Cox PH中的生存。 用于获得生存的R代码如下所示: mymodel &lt;- neuralnet(T1+T2+T3+T4+T5~covar1+covar2+covar3+..., data=mydata, hidden=1) compute(mymodel,data=mydata) 我去了R论坛,并在“ predict.coxph和predict.survreg ” 问题中找到了这个答案: 确实,从的predict()功能中,coxph您不能直接获得“时间”预测,而只能获得线性和指数风险评分。这是因为,为了获得时间,必须计算基准危害,而且它并不直接,因为它在Cox模型中是隐含的。 我想知道这三个(或两个考虑Cox PH的论点)中哪一个最适合获取感兴趣时间段的生存率?我对在生存分析中使用哪一个感到困惑。

2
测试人们在反复输球后是否退出比赛或降低赌注
我有关于每轮比赛后5轮消耗减少的一系列获胜和失败投注数据。我正在使用如下所示的决策树来显示数据。 往树顶的节点是那些有下注的节点,而往树底的那些节点是有下注的节点。我想看看(a)每个节点的损耗(b)每个节点的平均赌注大小变化。我正在查看前一个节点上每个节点的损耗率和存活率(如果概率为50%,则使用每个节点上的预期人数)。例如,如果每个节点的概率为50%,则在开始的1000个节点中,第二个节点W和L中应该有大约500个人。假设是(a)损失之后损耗率更高赌注(b)表示输家后减少赌注大小,赢家后增加赌注。 我只想首先在一个非常简单的单变量设置中执行此操作。如果有50个人退出,我如何执行t检验以显示从节点WW到节点WWW的平均下注大小的变化在统计上是显着的?我不确定这是正确的方法:每个后续下注都是独立的,但是人们在输家之后都退出比赛,因此样本不匹配。如果只是同一班同学一次又一次地参加一系列考试而又没有一个人辍学的情况,我会理解如何进行适当的t检验,但是我认为这有点不同。 我怎样才能做到这一点?此外,如果结果受到少数客户的歪曲,我该如何计算出前5%和后5%的收入?只是从下注1-3中删除累积赌注最高的客户? 我有从中生成该图的数据,所以在每个节点上都有平均值,std,std错误等。

3
如何获得总体r平方变化的置信区间
为了简单的示例,假设有两个线性回归模型 模型1有三个预测,x1a,x2b,和x2c 模型2具有从模型1 3个预测和两个附加的预测x2a和x2b 有一个种群回归方程,其中模型1 解释的种群方差为,模型解释为 。模型2解释的种群中的增量方差为ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δ ρ2= ρ2(2 )- ρ2(1 )Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 我有兴趣获取\ Delta \ rho ^ 2的估计量的标准误差和置信区间Δ ρ2Δρ2\Delta\rho^2。虽然该示例分别涉及3个和2个预测变量,但我的研究兴趣涉及大量不同数量的预测变量(例如5个和30个)。我首先想到的是使用 Δ [R2一dĴ= r2一dj (2 )- - [R2一dĴ (1 )Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)}作为估计量并进行引导,但是我不确定是否会适当的。 问题 是Δ [R2一dĴΔradj2\Delta r^2_{adj}一个合理的估计Δ ρ2Δρ2\Delta \rho^2? 如何获得总体r平方变化的置信区间(即Δ ρ2Δρ2\Delta\rho^2)? 引导Δ ρ2Δρ2\Delta\rho^2是否适合计算置信区间? 任何对模拟或已发表文献的引用也将受到欢迎。 范例程式码 如果有帮助,我在R中创建了一个小的模拟数据集,可用于演示答案: …

1
R中的离散时间危害模型(博客)
该survival软件包R似乎专注于连续时间生存模型。我对估计比例风险模型(互补对数-对数模型)的离散时间版本感兴趣。我有一个非常简单的生存模型,并带有简单的权限检查。 我知道,估算此模型的一种方法是创建一个数据集,该数据集在不是“死角”的每个时期的每个观察值中都有单独的一行。然后,可以使用glm带有cloglog链接的模型。 这种方法似乎对内存效率很低。实际上,它可能会产生一个数据集,该数据集对于我的计算机上的内存而言太大。 第二种方法是自己编写MLE。那将足够简单,但是我希望有一个可以固定这种生存模型的软件包。协作更容易,并且避免使用程序包时出现编码错误。 有人知道这样的包裹吗?
10 r  survival 

3
具有时间相关协变量的Cox回归的模型建议
我正在模拟怀孕对疾病后果(死活)的影响。诊断后,大约40%的患者确实怀孕了-但时间不同。到目前为止,我已经完成了KM图,显示了妊娠对生存的明显保护作用,并且还建立了常规的Cox模型-但是仅使用二等分的妊娠变量对它们进行了建模,并假设从诊断开始就存在这种影响,这显然是不现实的因为从诊断到怀孕的平均时间为4年。 哪种模型可以在诊断后的不同时间点吸收多次怀孕的影响?对与时间交互作用的怀孕进行建模是否正确(这将需要进行一些认真的数据重建—是否有任何自动化软件可以对此进行帮助?)还是针对这些问题是否存在另一种首选的建模策略?这些问题的首选绘图策略是什么?
10 survival 

1
在无病生存分析中如何处理死亡?
如果我有无病生存数据(定义为是否已诊断出特定疾病以及事件发生的时间或后续损失)以及总体生存数据,那么我该如何处理在没有疾病的情况下发生的死亡疾病事件?是否对这些患者进行了检查?还是应该从无病生存(dfs)分析中排除此类患者?我计划针对几种特定类型的疾病分别进行dfs分析。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.