累积危害函数的直觉(生存分析)


17

我试图对精算科学的每个主要功能(特别是对于Cox比例危害模型)有所了解。这是我到目前为止的内容:

  • f(x):从开始的时间开始,到您死亡的概率分布。
  • F(x):仅累积分布。在时间T,将有百分之几的人口死亡?
  • S(x)1F(x)。在时间T,人口中还活着的百分比是多少?
  • h(x):危险函数。在给定的时间T,仍然活着的人中,这可以用来估计在下一个时间间隔内将有多少人死亡,或者如果时间间隔-> 0,则是“瞬时”死亡概率。
  • H(x):累积危害。不知道。

组合危险值(尤其是连续危险值)的背后是什么想法?如果我们使用一个离散的例子来说明四个季节的死亡率,那么危害函数如下:

  • 从春季开始,每个人都还活着,有20%会死亡
  • 现在在夏天,剩下的人中有50%会死
  • 现在在秋天,剩下的人中有75%将死
  • 最后的季节是冬天。在剩下的人中,有100%将死

那么累积危害是20%,70%,145%,245%?这是什么意思,为什么有用?


1
您的T应该是x,反之亦然。
Glen_b-恢复莫妮卡

5
关于,您有一个错误(尽管这是很常见的混淆)。您写的是“ interval-> 0,'瞬时'死亡概率”。正确的说法是“瞬间死亡速度 ”。这不可能是概率,因为它是概率除以d t。此外,它可能> 1。h(x)dt
gung-恢复莫妮卡

Answers:


6

像你这样死亡的比例组合并不会给你带来累积的危害。连续时间内的危险率是在很短的间隔内发生事件的条件概率:

h(t)=limΔt0P(t<Tt+Δt|T>t)Δt

累积危害是随年龄/时间累积的(瞬时)危害率。这就像概率总结,但由于是非常小的,这些概率也小的数字(例如死亡可能是0.004左右在大约30岁的危险率)。危险率取决于t之前是否没有经历过该事件,因此对于一个人群来说,危险总和可能超过1。Δtt

尽管这是一个离散时间公式,但您可能会查找一些人类死亡率寿命表,并尝试累积mx

如果您使用R,这是一个根据每个1岁年龄段的死亡人数估算这些函数的小例子:

dx <-  c(3184L, 268L, 145L, 81L, 64L, 81L, 101L, 50L, 72L, 76L, 50L, 
         62L, 65L, 95L, 86L, 120L, 86L, 110L, 144L, 147L, 206L, 244L, 
         175L, 227L, 182L, 227L, 205L, 196L, 202L, 154L, 218L, 279L, 193L, 
         223L, 227L, 300L, 226L, 256L, 259L, 282L, 303L, 373L, 412L, 297L, 
         436L, 402L, 356L, 485L, 495L, 597L, 645L, 535L, 646L, 851L, 689L, 
         823L, 927L, 878L, 1036L, 1070L, 971L, 1225L, 1298L, 1539L, 1544L, 
         1673L, 1700L, 1909L, 2253L, 2388L, 2578L, 2353L, 2824L, 2909L, 
         2994L, 2970L, 2929L, 3401L, 3267L, 3411L, 3532L, 3090L, 3163L, 
         3060L, 2870L, 2650L, 2405L, 2143L, 1872L, 1601L, 1340L, 1095L, 
         872L, 677L, 512L, 376L, 268L, 186L, 125L, 81L, 51L, 31L, 18L, 
         11L, 6L, 3L, 2L)

x <- 0:(length(dx)-1) # age vector

plot((dx/sum(dx))/(1-cumsum(dx/sum(dx))), t="l", xlab="age", ylab="h(t)", 
     main="h(t)", log="y")
plot(cumsum((dx/sum(dx))/(1-cumsum(dx/sum(dx)))), t="l", xlab="age", ylab="H(t)", 
     main="H(t)")

希望这可以帮助。


说h(t)* dt是在t周围的长度dt内发生事件的概率是否正确?因此,值h(t)是事件在以t为中心的1个时间单位内发生的概率。仅当h(t)<= 1
乌鸦

10

Mario Cleves撰写的《使用Stata进行生存分析简介》(第二版)一书中有一个很好的章节。

您可以在Google图书中找到该章节,第。13-15。但我建议您阅读整章2。

这是简写​​形式:

  • “它度量了到时间t为止已经累计的风险总量”(第8页)
  • 计算数据解释:“它给出了我们期望(在数学上)观察给定时间段内的故障(或其他事件)的次数,如果只有故障事件是可重复的”(第13页)

5

我很危险,由于它在诊断图中的使用,因此值得一提:

(1)在Cox比例风险模型,其中,βh(x)=eβTzh0(x)β是系数并分别协变量矢量,&ħ 0X 是基线风险函数; &所以日志ħ X = β Ť Ž + ħ 0X 。如果您绘制的估计^ hX zh0(x)logH(x)=βTz+H0(x)logH^(x) 相对于,假设比例风险假设正确,则不同的协变量模式遵循平行曲线。x

(2)在Weibull模型中,其中θα分别是比例和形状参数;&所以日志ħX=α登录X-α日志θ。如果绘制估计日志h(x)=αθ(xθ)α1θαlogH(x)=αlogxαlogθlogH^(x)logxα^α^logθ^,前提是Weibull假设正确。当然,接近1的斜率表明可能适合指数模型。

H(x)x


3

在解释@Scortchi所说的内容时,我要强调的是,累积危害函数没有很好的解释,因此,我不会尝试将其用作解释结果的方法。告诉非统计研究人员累积的危害不同,很可能会得出“ mm-hm”的答案,然后他们再也不会以不好的方式再问这个问题了。

但是,累积危险函数在数学上被证明是非常有用的,例如将危险函数与生存函数联系起来的一般方法。因此,重要的是要知道累积危害是什么,以及如何将其用于各种统计方法。但是总的来说,我认为从累积危害的角度考虑真实数据并不是特别有用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.