为什么假定生存时间呈指数分布?


36

我正在从UCLA IDRE上的这篇文章中学习生存分析,并在第1.2.1节中进行了介绍。该教程说:

...如果已知生存时间呈指数分布,则观察生存时间的概率...

为什么假定生存时间呈指数分布?对我来说似乎很不自然。

为什么不正常分布?假设我们正在研究某种生物在一定条件下(例如天数)的寿命,是否应该将其更多地围绕具有一定差异的某个数字(例如100天,具有3天的差异)?

如果我们希望时间严格地为正,为什么不使用均值较高且方差很小的正态分布(几乎没有机会获得负数)?


9
试探性地,我不能认为正态分布是建模故障时间的直观方法。在我的任何应用工作中都从未出现过。他们总是偏向最右边。我认为正态分布启发式地取平均值,而生存时间启发性地取极值,例如对一系列并行或串联组件施加恒定危害的影响。
AdamO

6
我同意@AdamO关于生存和失败时间所固有的极端分布。正如其他人指出的那样,指数假设具有易于处理的优点。它们的最大问题是隐含的恒定衰减率假设。其他功能形式也是可能的,并且视软件而定是标准选项,例如通用伽玛。拟合优度检验可用于测试不同的功能形式和假设。关于生存建模的最佳文章是Paul Allison的《使用SAS进行生存分析》,第二版。忘记SAS,这是一个很好的评论
Mike Hunter

8
我要指出的是,引号中的第一个单词是“ if
Fomite

Answers:


40

指数分布通常用于建模生存时间,因为它们是可用于表征生存/可靠性数据的最简单的分布。这是因为它们没有记忆力,因此危险函数的w / r / t时间是恒定的,这使得分析非常简单。这种假设对于例如某些类型的电子组件(如高质量集成电路)可能是有效的。我相信您可以想到更多可以将时间对危害的影响忽略不计的示例。

但是,您正确地注意到,在许多情况下,这不是一个适当的假设。在某些情况下,正态分布可能没问题,尽管显然生存时间为负是没有意义的。因此,通常考虑对数正态分布。其他常见选择包括Weibull,最小极值,最大极值,逻辑等。模型的明智选择将基于主题区域的经验和概率图。当然,您也可以考虑非参数建模。

生存分析中经典参数化模型的一个很好的参考是:William Q. Meeker和Luis A. Escobar(1998)。对于可靠性数据统计方法,威利


您能否详细说明“危险函数是恒定的时间/时间”?
海涛杜

4
@ hxd1011:推测的“风险函数”作者是指功能由下式给出,其中是的PDF和是尾的()。这也称为故障率。观察结果是,对于,失败率是,这是恒定的。此外,不难证明只有指数分布具有此属性。- [R X= ˚F X/ ˉ ˚F X˚F X X ˉ ˚F X X ˉ ˚F X= 1 - ˚F X= ∫ ˚F XX rXrX(t)=fX(t)/F¯X(t)fXXF¯XX精通λ - [R = λ ë - λ /ë - λ = λF¯X(t)=1FX(t)=tfX(x)dxExp(λ)r(t)=(λeλt)/(eλt)=λ
wchargin

22

为了在生存分布中如何突然弹出指数后面添加一些数学直觉:

生存变量的概率密度为,其中是当前危害(这一天“死亡”的风险),而是一个人生存到概率。可以将扩展为一个人在第1天和第2天……直到生存的概率。然后: 随着常数和小危险,我们可以使用: 来近似地将简化为 ħ 小号小号P 小号û [R v v Ë d d ý = 1 - H ^ P š û [R v v Ë d d f(t)=h(t)S(t)h(t)S(t)tS(t)t

P(survived day t)=1h(t)
λ ë - λ1 - λ 小号1 - λ ë - λ ˚F = ^ h 小号= λ è
P(survived days 1,2,...,t)=(1h(t))t
λ
eλ1λ
S(t)
(1λ)teλt
,则概率密度为
f(t)=h(t)S(t)=λeλt

免责声明:这绝不是对pdf进行正确推导的尝试-我只是认为这是一个巧合,并且欢迎就其正确/不正确之处提出任何意见。

编辑:通过@SamT更改每个建议的近似值,请参阅注释以进行讨论。


1
+1这有助于我进一步了解指数分布的性质。
海涛杜

1
您能解释一下倒数第二行吗?它说,所以左侧是函数;而且,权利也是如此。但是,两个中间项是函数(如右侧),而不是函数。此外,近似值仅在。这当然不是真的, -它甚至不是为大约真。我想这只是您犯的一个符号错误...?λ 1 + X / Ñ ñ Ë X X = Ö S(t)=...tλt(1+x/n)n exx=o(n)limt(1λt/t)t=eλtt
山姆T

@SamT-感谢您的评论,已编辑。来自应用的背景,我非常欢迎任何更正,尤其是。在符号上。传递到了极限WRT当然没有必要,但我仍然相信近似适用于小,如在生存模式通常会遇到。还是您会说,还有其他一些巧合使这种近似成立?λtλ
2014年

1
现在看起来更好了:)-问题在于,虽然可能很小,但一定很小并不正确;因此,您不能直接使用近似:它甚至不是“您可以在应用数学中学习,而不能纯粹地学习”;它根本不成立。但是,我们可以解决这个问题:确实很小,所以我们可以直接到达那里,编写当然,,因此我们可以推论出λ 1 + X / Ñ ñË X λ ë - λ = ë - λ 1 - λ λ = λ /ë - λ 1 - λ /λλt
(1+x/n)nex
λ
eλt=(eλ)t(1λ)t.
λ=λt/t
eλt(1λt/t)t.
山姆

被应用后,您可能会觉得这有点挑剔,但要点是推理无效。类似的无效步骤可能不会正确。当然,当有人提出申请时,您可能会乐于进行此步骤,发现它在大多数情况下都适用,而不必担心具体细节!作为从事纯数学的人,这对我来说是不可能的,但是我知道我们既需要纯数学又需要应用数学!(特别是在统计数据中,最好不要被纯粹的技术问题所困扰。)
Sam T

11

您几乎肯定会希望查看可靠性工程和预测,以便对生存时间进行全面分析。其中,有一些经常使用的发行版:

Weibull(或“浴缸”)分布是最复杂的。它解释了三种类型的故障模式,这些模式在不同的年龄段均占主导地位:婴儿死亡率(缺陷零件在早期破裂),诱发故障(零件在系统的整个生命周期内随机破裂)和磨损(零件在使用寿命中破裂)。使用)。使用时,它具有一个看起来像“ \ __ /”的PDF。特别是对于某些电子设备,您可能会听到“老化”时间,这意味着这些零件已经通过曲线的“ \”部分进行了操作,并且已经排除了早期故障(理想情况下)。不幸的是,Weibull分析无法快速分解如果您的零件不是同质的(包括使用环境!),或者您在不同的时间范围内使用它们(例如,如果某些零件直接投入使用,而其他零件首先进入存储,则“随机故障”率将达到由于将时间的两个测量值(工作时间与使用时间)进行了混合,因此差异很大。

正态分布几乎总是错误的。每个正态分布都有负值,没有可靠性分布。有时它们可​​能是一个有用的近似值,但是当这是事实的时候,无论如何您几乎总是在查看对数正态,因此您也可以只使用正确的分布。当您出现某种磨损和可忽略的随机故障时,并且在其他情况下,则不能正确使用对数正态分布像正态分布一样,它们足够灵活,您可以强制它们适应大多数数据。您需要抵制这种冲动,并检查情况是否合理。

最后,指数分布才是真正的主力军。您通常不知道零件有多旧(例如,零件未序列化并且在投入使用时具有不同的时间),因此任何基于内存的分发都将失效。此外,许多零件的磨损时间是如此之长,以至于它要么完全被诱发的故障所占据,要么就超出了分析的有用时间范围。因此,尽管它可能不像其他发行版那样完美,但它并不在乎会使它们崩溃的事物。如果您具有MTTF(填充时间/失败次数),那么您将具有指数分布。最重要的是,您不需要对系统有任何物理了解。你可以做指数估计基于观察到的零件MTTF(假设有足够大的样本),它们非常接近。它也可以抗拒原因:如果每隔一个月,某人感到无聊,并且打槌球直到其破裂为止,那么这就是指数级的原因(它会累积到MTTF中)。指数也很简单,您可以对冗余系统的可用性进行后台计算,从而大大提高了其实用性。


3
这是一个很好的答案,但是请注意,对于生存模型,Weibull分布不是“最复杂的”参数分布。我不知道是否有可能是这样的事情,但肯定相对于韦伯还有就是广义Gamma分布,及对广义F分布,两者都可以通过参数设置为0采取韦伯作为一种特殊情况
龚-恢复莫妮卡

这是可靠性工程中最常用的一个(第一段:)我不同意您的观点,但是我也从未见过任何一个实际使用过(关于如何使用它们的文字,是的。实际实现,否)
fectin-免费Monica

9

要回答您的明确问题,您不能使用正态分布求生存,因为正态分布趋向于负无穷大,并且生存严格来说是非负的。而且,我不认为现实中的任何人都认为“生存时间呈指数分布”是不正确的。

当对生存时间进行参数化建模时(即,当调用任何命名分布时),Weibull分布是典型的起点。请注意,Weibull有两个参数,形状和比例,并且当shape = 1时,Weibull简化为指数分布。对此的一种思考方式是,指数分布是生存时间的最简单的参数分布,这就是为什么在教授生存分析时经常会首先讨论它。(通过类比,考虑到我们经常通过遍历一个样本的检验来开始进行假设检验,然后我们假装知道总体SD a先验,然后进行检验。) Ťzt

指数分布假设危害总是相同的,无论一个单元存活了多长时间(请考虑@CaffeineConnoisseur的答案中的数字)。相反,当形状在Weibull分布中时,则意味着危险越长,生存时间就越长(如“人的曲线”);当它,则表示危险降低(“树”)。 < 1>1<1

最常见的是,生存分布是复杂的,不能很好地与任何命名分布匹配。人们通常甚至不用理会它可能是什么分布。这就是Cox比例风险模型如此受欢迎的原因:半参数化可以完全不指定基线风险,而模型的其余部分可以与未指定的基线保持关系。


4
“此外,我不认为现实中的任何人都认为“生存时间呈指数分布”是不正确的。” 实际上,我发现它在流行病学中很普遍,通常是隐性的。
Fomite

1
@gung,您能否请您解释一下- 它是半参数的,可以完全不确定基线风险,但就模型与未指定的基线的关系而言,其余模型可以参数化
Gaurav Singhal

7

一些生态学可能有助于回答这个问题背后的“为什么”。

使用指数分布来模拟生存的原因是由于自然界生物参与的生命策略。生存策略在本质上有两个极端,中间还有一些余地。

这是一张说明我意思的图片(由Khan Academy提供):

https://www.khanacademy.org/science/biology/ecology/population-ecology/a/life-tables-survivorship-age-sex-structure

该图在Y轴上绘制了存活的个体,在X轴上绘制了“最大预期寿命的百分比”(也就是个体年龄的近似值)。

I型是人类,其模型对后代给予了极高的关注,从而确保了极低的婴儿死亡率。通常,这些物种的后代很少,因为每个物种都要花费父母大量的时间和精力。杀死I型生物的大部分原因是老年时出现的并发症。如果要付出巨大的代价,这里的策略是在长寿的生产寿命中获得高回报的高投资。

相反,III型是用树木(但也可能是浮游生物,珊瑚,产卵鱼,许多类型的昆虫等)建模的,其中父母对每个后代的投入相对较少,但希望大量繁殖后代生存。这里的策略是“喷洒祈祷”,希望尽管大多数后代会利用容易采摘的方式被掠食者相对快速地摧毁,但存活下来足以长成的少数人将变得越来越难以杀死,最终(实际上)变得不可能被杀死。吃过。一直以来,这些人产生了大量的后代,希望少数人能够存活到自己的年龄。

II型是一种中等策略,需要适度的父母投资,以确保各个年龄段的儿童都具有适度的生存能力。

我有一位生态教授这样说:

“ III型(树)是'希望曲线',因为一个人生存的时间越长,它就越可能继续生存。而I型(人)则是'绝望曲线',因为时间越长你活着,死亡的可能性就更大。”


这很有趣,但是请注意,对于人类来说,在现代医学出现之前(以及当今世界的某些地方),婴儿死亡率很高。基线人类生存通常以“ 浴缸危险 ” 为模型。
gung-恢复莫妮卡

@gung当然,这是一个广义的概括,不同区域和时间段的人类内部存在差异。在比较极端情况时,主要的区别是比较清楚的,例如,西方人类家庭(每对约有2.5个孩子,其中大多数不会在婴儿期死亡)与珊瑚或产卵鱼(每个交配周期释放数百万个卵,其中大多数因进食,饥饿,有害的水化学物质或只是未能漂入可居住的目的地而死亡)
CaffeineConnoisseur

1
尽管我全都需要生态学方面的解释,但我会注意到类似的假设也适用于硬盘驱动器和飞机引擎。
Fomite

6

这并不能直接回答问题,但我认为要注意这一点非常重要,并且不能很好地适合单个评论。

虽然指数分布具有很好的理论推导,因此假设所产生的数据遵循指数分布中假定的机制,但理论上它应该给出最佳估计值,实际上,我尚未进入指数分布甚至产生接近可接受的结果(当然,这取决于我分析的数据类型,几乎是所有生物学数据)。例如,我只是考虑使用在R包中可以找到的第一个数据集来拟合具有各种分布的模型。对于基线分布的模型检查,我们通常将其与半参数模型进行比较。看一下结果。

生存曲线

在Weibull,对数逻辑和对数正态分布中,在适当拟合方面没有绝对明确的胜利者。但是有一个明显的失败者:指数分布!根据我的经验,这种不匹配的程度不是异常的,而是指数分布的标准。

为什么?因为指数分布是一个单参数族。因此,如果指定此分布的均值,则将指定分布的所有其他时刻。这些其他族都是两个参数族。因此,这些系列在适应数据本身方面具有更大的灵活性。

现在请记住,Weibull分布具有指数分布,这是特例(即,当shape参数= 1时)。因此,即使数据确实是指数型的,我们也只能通过在指数分布上使用Weibull分布来增加一些噪声。因此,我几乎建议使用指数分布对真实数据建模(并且我很想知道是否有任何读者举了个什么时候是个好主意的例子)。


1
我不相信这个答案:1)“使用我可以在R包中找到的第一个数据集” ...真的吗?...在stats.stackexchange上?一个随机样本,我们得出一般结论?1b)对于故障时间倾向于围绕给定值(例如人们的生活)分布的模型,显然,更适合使用Gamma,Weibull等分布;当事件同样可能发生时,指数分布更合适。我敢打赌,您上面的“第一数据集”属于第一类。2)所有其他模型都有2个参数,其中一个应使用贝叶斯因子来比较模型。
卡·花旗

2
@LucaCiti:“我的R包中的第一个数据集”表示我发布的R包中的第一个数据集(icenReg)。我确实注意到,我对指数分布的拟合总是很差的经验取决于我分析的数据类型。几乎全部是生物学数据。最后,正如我在最后所说,我很想听到真正的应用示例,其中有令人信服的理由使用指数分布,因此,如果有的话,请分享。
Cliff AB

1
您可能希望使用指数分布的情况是:(a)您有很多历史数据表明该数据实际上是用指数分布很好地近似的;(b)您需要用小样本进行推断(即n <10)。但是我不知道像这样的实际应用。也许是某种制造质量控制问题?
悬崖AB

1
嗨,克里夫,谢谢您抽出宝贵的时间回复我的评论。我认为大致来说,像威布尔(Weibull)这样的分布更适合与“我的样本中个体x的寿命是多少”或“神经元x何时会再次发射”或“萤火虫x何时会再次闪烁”等问题相对应的更好情况。 ”。相反,指数分布模拟了诸如“何时将在我的人口中预期发生下一次死亡”,“何时将要发射的下一个神经元”或“何时群中的萤火虫将要闪烁”之类的问题
Luca Citi

@LucaCiti; 哈,只是您刚才的戳是开玩笑说要用n = 1进行推论。不知道我是如何第一次错过它。在我的辩护中,如果有理论说估计量应该是渐近正态的,但与其他渐近正态估计相差4个标准差,那么我们可以!但说真的,并不是说一个图使我信服,而是一贯地看到相同水平的偏差。但是,如果我发送20多个错误的指数拟合图,我可能会被阻止。
Cliff AB

4

指数分布经常出现以模拟事件之间的时间间隔的另一个原因如下。

众所周知,在某些假设下,大量独立随机变量的总和将接近高斯分布。类似的定理适用于更新过程,即事件随机的模型,这些事件以IID事件间隔在时间上随机发生。实际上,Palm-Khintchine定理指出,大量(不一定是泊松)更新过程的叠加表现为渐近的,类似于泊松过程。泊松过程的事件间隔是按指数分布的。


3

TL;博士 - 一个expontential分布等同于假设个人同样可能在任何时刻任何其他死亡。

推导

  1. 假设一个活着的人在任何给定时刻与在任何其他时刻死亡的可能性一样高。

  2. 因此,死亡率与人口成正比。 PdPdtP

dPdt  P
  1. 在WolframAlpha上求解表明:

P(t)=c1et

因此,总体遵循指数分布。

数学笔记

上面的数学是一阶常微分方程(ODE)的简化。通常,我们还将通过注意边界条件,即人口在开始时间开始于给定值的边界条件来求解。 P t 0 t 0c0P(t0)t0

然后,等式变为:

P(t)=etP(t0).

现实检查

指数分布假设人口中的人们随着时间的流逝倾向于以相同的速度死亡。实际上,对于有限的人口,死亡率往往会有所不同。

得出更好的分布涉及随机微分方程。然后,我们不能说有持续的死亡可能性;相反,我们必须针对每个个体在任何给定时刻死亡的几率得出一个分布,然后将所有人群的各种可能性树合并在一起,然后随时间求解该微分方程。

我不记得以前在网上做过任何事情,所以您可能不会遇到它。但是,如果您想改进指数分布,那就是下一步的建模步骤。


3

(请注意,在您引述的部分中,该语句是有条件的;该语句本身未假定指数生存,它解释了这样做的后果。尽管如此,对指数生存的假设很常见,因此值得处理“为什么?指数”和“为什么不正常”-因为第一个已经很好地涵盖了,所以我将重点放在第二个上)

正态分布的生存时间没有意义,因为生存时间为负的可能性非零。

然后,如果您将考虑范围限制在几乎没有机会接近零的正态分布,则无法为生存时间较短的合理概率的生存数据建模:

生存时间分布-正常均值100 sd 10与特定分布的均值100和sd 42相比,生存时间在0到50之间的概率超过20%

也许偶尔会有几乎没有短生存时间机会的生存时间是合理的,但是您需要在实践中有意义的分布-通常您观察到短生存时间和长生存时间(以及介于两者之间的任何时间),并且通常存在偏差生存时间分布)。未经修改的正态分布在实践中几乎不会有用。

[ 截断的法线通常比法线更合理的粗略近似值,但其他分布通常会做得更好。]

指数的恒定风险有时是生存时间的合理近似值。例如,如果像事故这样的“随机事件”是导致死亡率的主要因素,则指数生存将相当有效。(例如,在动物种群中,有时捕食和疾病都可以至少大致像偶然过程一样起作用,而将诸如指数之类的东西作为生存时间的合理的第一近似值。)


还有一个与截断法线有关的问题:如果法线法不合适,为什么不采用法线平方(df 1的方差)?

确实,这可能会好一点……但是请注意,这将对应于0处的无限危险,因此它仅偶尔有用。虽然它可以在非常短的时间内以很高的比例对案件进行建模,但存在一个相反的问题,即只能对通常比平均生存期短得多的案件进行建模(25%的生存时间低于平均生存时间的10.15%,一半的生存时间小于平均值的45.5%;即中位生存时间小于平均值的一半。)

让我们看一下缩放的(即形状参数为的伽玛):χ1212

与以前相似的图,但变量的密度是卡方(1)的100倍; 它的峰值为0,尾部非常沉重-平均值为100,但标准差约为141,中位数约为45。

[也许,如果您将这些变量中的两个相加...或者,如果您考虑了非中心那么您将获得一些合适的可能性。除了指数以外,生存时间的参数分布的常见选择包括Weibull,对数正态,γ,对数逻辑等。请注意,Weibull和gamma包括指数,这是特例。 χ 2χ12χ2


谢谢,自昨天以来我一直在等待您的答复:)。另一个与截断法线有关的问题是:如果法线法不合适,为什么不使用法线平方(df 1的方差)?
海涛杜

确实,这可能会好一点……但是请注意,这将对应于0处的无限危险-因此它仅偶尔有用。相反的问题是,仅对通常比平均生存时间短得多的案例进行建模(25%的生存时间低于平均生存时间的10.15%,一半的生存时间低于平均生存时间的45.5%)这两个变量中,您可能会得到不太令人惊讶的危害函数。。。; Pχ12
Glen_b

再次感谢您接受教育,了解我对事物的直觉。我看过太多食谱级别的教程,人们在不知为什么的情况下做事。简历是学习的好地方。
海涛杜

1

如果我们希望时间严格地为正,为什么不使用均值较高且方差很小的正态分布(几乎没有机会获得负数)?

因为

  1. 仍然有一个非零的否定概率,所以它不是严格意义上的正;

  2. 您可以从要建模的总体中测量平均值和方差。如果您的总体具有均值2和方差1,并使用正态分布对其进行建模,则该正态分布将具有小于0的大量质量;如果您使用均值为5且方差为0.1的正态分布对其进行建模,则您的模型显然与应该建模的对象具有非常不同的属性。

正态分布具有特定的形状,并且该形状关于均值对称。调整形状的唯一方法是向右和向左移动(增加或减少均值)或使其或多或少散开(增加或减少方差)。这意味着,要获得正态分布的唯一方法是,大部分质量在2到10之间,只有极少量的质量在零以下,您需要将平均值设为6(范围的中间值) )并将方差设置得足够小,使得只有一小部分样本为负数。但是随后您可能会发现大多数样本是5、6或7,而您应该有很多2s,3s,4s,8s,9s和10s。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.