我正在从UCLA IDRE上的这篇文章中学习生存分析,并在第1.2.1节中进行了介绍。该教程说:
...如果已知生存时间呈指数分布,则观察生存时间的概率...
为什么假定生存时间呈指数分布?对我来说似乎很不自然。
为什么不正常分布?假设我们正在研究某种生物在一定条件下(例如天数)的寿命,是否应该将其更多地围绕具有一定差异的某个数字(例如100天,具有3天的差异)?
如果我们希望时间严格地为正,为什么不使用均值较高且方差很小的正态分布(几乎没有机会获得负数)?
我正在从UCLA IDRE上的这篇文章中学习生存分析,并在第1.2.1节中进行了介绍。该教程说:
...如果已知生存时间呈指数分布,则观察生存时间的概率...
为什么假定生存时间呈指数分布?对我来说似乎很不自然。
为什么不正常分布?假设我们正在研究某种生物在一定条件下(例如天数)的寿命,是否应该将其更多地围绕具有一定差异的某个数字(例如100天,具有3天的差异)?
如果我们希望时间严格地为正,为什么不使用均值较高且方差很小的正态分布(几乎没有机会获得负数)?
Answers:
指数分布通常用于建模生存时间,因为它们是可用于表征生存/可靠性数据的最简单的分布。这是因为它们没有记忆力,因此危险函数的w / r / t时间是恒定的,这使得分析非常简单。这种假设对于例如某些类型的电子组件(如高质量集成电路)可能是有效的。我相信您可以想到更多可以将时间对危害的影响忽略不计的示例。
但是,您正确地注意到,在许多情况下,这不是一个适当的假设。在某些情况下,正态分布可能没问题,尽管显然生存时间为负是没有意义的。因此,通常考虑对数正态分布。其他常见选择包括Weibull,最小极值,最大极值,逻辑等。模型的明智选择将基于主题区域的经验和概率图。当然,您也可以考虑非参数建模。
生存分析中经典参数化模型的一个很好的参考是:William Q. Meeker和Luis A. Escobar(1998)。对于可靠性数据统计方法,威利
为了在生存分布中如何突然弹出指数后面添加一些数学直觉:
生存变量的概率密度为,其中是当前危害(这一天“死亡”的风险),而是一个人生存到概率。可以将扩展为一个人在第1天和第2天……直到生存的概率。然后: 随着常数和小危险,我们可以使用: 来近似地将简化为 ħ (吨)小号(吨)吨小号(吨)吨P (小号û [R v 我v Ë d d 一ý 吨)= 1 - H ^ (吨)P (š û [R v 我v Ë d d 一
免责声明:这绝不是对pdf进行正确推导的尝试-我只是认为这是一个巧合,并且欢迎就其正确/不正确之处提出任何意见。
编辑:通过@SamT更改每个建议的近似值,请参阅注释以进行讨论。
您几乎肯定会希望查看可靠性工程和预测,以便对生存时间进行全面分析。其中,有一些经常使用的发行版:
Weibull(或“浴缸”)分布是最复杂的。它解释了三种类型的故障模式,这些模式在不同的年龄段均占主导地位:婴儿死亡率(缺陷零件在早期破裂),诱发故障(零件在系统的整个生命周期内随机破裂)和磨损(零件在使用寿命中破裂)。使用)。使用时,它具有一个看起来像“ \ __ /”的PDF。特别是对于某些电子设备,您可能会听到“老化”时间,这意味着这些零件已经通过曲线的“ \”部分进行了操作,并且已经排除了早期故障(理想情况下)。不幸的是,Weibull分析无法快速分解如果您的零件不是同质的(包括使用环境!),或者您在不同的时间范围内使用它们(例如,如果某些零件直接投入使用,而其他零件首先进入存储,则“随机故障”率将达到由于将时间的两个测量值(工作时间与使用时间)进行了混合,因此差异很大。
正态分布几乎总是错误的。每个正态分布都有负值,没有可靠性分布。有时它们可能是一个有用的近似值,但是当这是事实的时候,无论如何您几乎总是在查看对数正态,因此您也可以只使用正确的分布。当您出现某种磨损和可忽略的随机故障时,并且在其他情况下,则不能正确使用对数正态分布!像正态分布一样,它们足够灵活,您可以强制它们适应大多数数据。您需要抵制这种冲动,并检查情况是否合理。
最后,指数分布才是真正的主力军。您通常不知道零件有多旧(例如,零件未序列化并且在投入使用时具有不同的时间),因此任何基于内存的分发都将失效。此外,许多零件的磨损时间是如此之长,以至于它要么完全被诱发的故障所占据,要么就超出了分析的有用时间范围。因此,尽管它可能不像其他发行版那样完美,但它并不在乎会使它们崩溃的事物。如果您具有MTTF(填充时间/失败次数),那么您将具有指数分布。最重要的是,您不需要对系统有任何物理了解。你可以做指数估计刚基于观察到的零件MTTF(假设有足够大的样本),它们非常接近。它也可以抗拒原因:如果每隔一个月,某人感到无聊,并且打槌球直到其破裂为止,那么这就是指数级的原因(它会累积到MTTF中)。指数也很简单,您可以对冗余系统的可用性进行后台计算,从而大大提高了其实用性。
要回答您的明确问题,您不能使用正态分布求生存,因为正态分布趋向于负无穷大,并且生存严格来说是非负的。而且,我不认为现实中的任何人都认为“生存时间呈指数分布”是不正确的。
当对生存时间进行参数化建模时(即,当调用任何命名分布时),Weibull分布是典型的起点。请注意,Weibull有两个参数,形状和比例,并且当shape = 1时,Weibull简化为指数分布。对此的一种思考方式是,指数分布是生存时间的最简单的参数分布,这就是为什么在教授生存分析时经常会首先讨论它。(通过类比,考虑到我们经常通过遍历一个样本的检验来开始进行假设检验,然后我们假装知道总体SD a先验,然后进行检验。) Ť
指数分布假设危害总是相同的,无论一个单元存活了多长时间(请考虑@CaffeineConnoisseur的答案中的数字)。相反,当形状在Weibull分布中时,则意味着危险越长,生存时间就越长(如“人的曲线”);当它,则表示危险降低(“树”)。 < 1
最常见的是,生存分布是复杂的,不能很好地与任何命名分布匹配。人们通常甚至不用理会它可能是什么分布。这就是Cox比例风险模型如此受欢迎的原因:半参数化可以完全不指定基线风险,而模型的其余部分可以与未指定的基线保持关系。
一些生态学可能有助于回答这个问题背后的“为什么”。
使用指数分布来模拟生存的原因是由于自然界生物参与的生命策略。生存策略在本质上有两个极端,中间还有一些余地。
这是一张说明我意思的图片(由Khan Academy提供):
该图在Y轴上绘制了存活的个体,在X轴上绘制了“最大预期寿命的百分比”(也就是个体年龄的近似值)。
I型是人类,其模型对后代给予了极高的关注,从而确保了极低的婴儿死亡率。通常,这些物种的后代很少,因为每个物种都要花费父母大量的时间和精力。杀死I型生物的大部分原因是老年时出现的并发症。如果要付出巨大的代价,这里的策略是在长寿的生产寿命中获得高回报的高投资。
相反,III型是用树木(但也可能是浮游生物,珊瑚,产卵鱼,许多类型的昆虫等)建模的,其中父母对每个后代的投入相对较少,但希望大量繁殖后代生存。这里的策略是“喷洒祈祷”,希望尽管大多数后代会利用容易采摘的方式被掠食者相对快速地摧毁,但存活下来足以长成的少数人将变得越来越难以杀死,最终(实际上)变得不可能被杀死。吃过。一直以来,这些人产生了大量的后代,希望少数人能够存活到自己的年龄。
II型是一种中等策略,需要适度的父母投资,以确保各个年龄段的儿童都具有适度的生存能力。
我有一位生态教授这样说:
“ III型(树)是'希望曲线',因为一个人生存的时间越长,它就越可能继续生存。而I型(人)则是'绝望曲线',因为时间越长你活着,死亡的可能性就更大。”
这并不能直接回答问题,但我认为要注意这一点非常重要,并且不能很好地适合单个评论。
虽然指数分布具有很好的理论推导,因此假设所产生的数据遵循指数分布中假定的机制,但理论上它应该给出最佳估计值,实际上,我尚未进入指数分布甚至产生接近可接受的结果(当然,这取决于我分析的数据类型,几乎是所有生物学数据)。例如,我只是考虑使用在R包中可以找到的第一个数据集来拟合具有各种分布的模型。对于基线分布的模型检查,我们通常将其与半参数模型进行比较。看一下结果。
在Weibull,对数逻辑和对数正态分布中,在适当拟合方面没有绝对明确的胜利者。但是有一个明显的失败者:指数分布!根据我的经验,这种不匹配的程度不是异常的,而是指数分布的标准。
为什么?因为指数分布是一个单参数族。因此,如果指定此分布的均值,则将指定分布的所有其他时刻。这些其他族都是两个参数族。因此,这些系列在适应数据本身方面具有更大的灵活性。
现在请记住,Weibull分布具有指数分布,这是特例(即,当shape参数= 1时)。因此,即使数据确实是指数型的,我们也只能通过在指数分布上使用Weibull分布来增加一些噪声。因此,我几乎不建议使用指数分布对真实数据建模(并且我很想知道是否有任何读者举了个什么时候是个好主意的例子)。
TL;博士 - 一个expontential分布等同于假设个人同样可能在任何时刻任何其他死亡。
假设一个活着的人在任何给定时刻与在任何其他时刻死亡的可能性一样高。
因此,死亡率与人口成正比。 P
因此,总体遵循指数分布。
上面的数学是一阶常微分方程(ODE)的简化。通常,我们还将通过注意边界条件,即人口在开始时间开始于给定值的边界条件来求解。 P (t 0 ) t 0
然后,等式变为:
指数分布假设人口中的人们随着时间的流逝倾向于以相同的速度死亡。实际上,对于有限的人口,死亡率往往会有所不同。
得出更好的分布涉及随机微分方程。然后,我们不能说有持续的死亡可能性;相反,我们必须针对每个个体在任何给定时刻死亡的几率得出一个分布,然后将所有人群的各种可能性树合并在一起,然后随时间求解该微分方程。
我不记得以前在网上做过任何事情,所以您可能不会遇到它。但是,如果您想改进指数分布,那就是下一步的建模步骤。
(请注意,在您引述的部分中,该语句是有条件的;该语句本身未假定指数生存,它解释了这样做的后果。尽管如此,对指数生存的假设很常见,因此值得处理“为什么?指数”和“为什么不正常”-因为第一个已经很好地涵盖了,所以我将重点放在第二个上)
正态分布的生存时间没有意义,因为生存时间为负的可能性非零。
然后,如果您将考虑范围限制在几乎没有机会接近零的正态分布,则无法为生存时间较短的合理概率的生存数据建模:
也许偶尔会有几乎没有短生存时间机会的生存时间是合理的,但是您需要在实践中有意义的分布-通常您观察到短生存时间和长生存时间(以及介于两者之间的任何时间),并且通常存在偏差生存时间分布)。未经修改的正态分布在实践中几乎不会有用。
[ 截断的法线通常比法线更合理的粗略近似值,但其他分布通常会做得更好。]
指数的恒定风险有时是生存时间的合理近似值。例如,如果像事故这样的“随机事件”是导致死亡率的主要因素,则指数生存将相当有效。(例如,在动物种群中,有时捕食和疾病都可以至少大致像偶然过程一样起作用,而将诸如指数之类的东西作为生存时间的合理的第一近似值。)
还有一个与截断法线有关的问题:如果法线法不合适,为什么不采用法线平方(df 1的方差)?
确实,这可能会好一点……但是请注意,这将对应于0处的无限危险,因此它仅偶尔有用。虽然它可以在非常短的时间内以很高的比例对案件进行建模,但存在一个相反的问题,即只能对通常比平均生存期短得多的案件进行建模(25%的生存时间低于平均生存时间的10.15%,一半的生存时间小于平均值的45.5%;即中位生存时间小于平均值的一半。)
让我们看一下缩放的(即形状参数为的伽玛):
[也许,如果您将这些变量中的两个相加...或者,如果您考虑了非中心那么您将获得一些合适的可能性。除了指数以外,生存时间的参数分布的常见选择包括Weibull,对数正态,γ,对数逻辑等。请注意,Weibull和gamma包括指数,这是特例。 χ 2
如果我们希望时间严格地为正,为什么不使用均值较高且方差很小的正态分布(几乎没有机会获得负数)?
因为
仍然有一个非零的否定概率,所以它不是严格意义上的正;
您可以从要建模的总体中测量平均值和方差。如果您的总体具有均值2和方差1,并使用正态分布对其进行建模,则该正态分布将具有小于0的大量质量;如果您使用均值为5且方差为0.1的正态分布对其进行建模,则您的模型显然与应该建模的对象具有非常不同的属性。
正态分布具有特定的形状,并且该形状关于均值对称。调整形状的唯一方法是向右和向左移动(增加或减少均值)或使其或多或少散开(增加或减少方差)。这意味着,要获得正态分布的唯一方法是,大部分质量在2到10之间,只有极少量的质量在零以下,您需要将平均值设为6(范围的中间值) )并将方差设置得足够小,使得只有一小部分样本为负数。但是随后您可能会发现大多数样本是5、6或7,而您应该有很多2s,3s,4s,8s,9s和10s。