我一直在研究Cox比例危害模型,大多数文本都掩盖了这个问题。
考克斯建议使用部分似然法拟合危险函数的系数,但为什么不仅仅使用最大似然法和线性模型拟合参量生存函数的系数呢?
在任何情况下,只要您检查了数据,就可以找到曲线下的面积。例如,如果您的估计值为380,标准差为80,并且样本的检查数量大于300,则在假设法向误差的情况下,可能性计算中该样本的概率为84%。
我一直在研究Cox比例危害模型,大多数文本都掩盖了这个问题。
考克斯建议使用部分似然法拟合危险函数的系数,但为什么不仅仅使用最大似然法和线性模型拟合参量生存函数的系数呢?
在任何情况下,只要您检查了数据,就可以找到曲线下的面积。例如,如果您的估计值为380,标准差为80,并且样本的检查数量大于300,则在假设法向误差的情况下,可能性计算中该样本的概率为84%。
Answers:
如果您知道数据遵循的参数分布,则使用最大似然法,这样的分布才有意义。Cox比例风险回归的真正优势在于,您仍然可以在不知道(或假设)分布的情况下拟合生存模型。您提供了一个使用正态分布的示例,但是大多数生存时间(以及使用Cox PH回归的其他类型的数据)都接近正态分布。有些可能遵循对数正态分布,Weibull分布或其他参数分布,并且如果您愿意进行此假设,则最大似然参数法非常有用。但是在许多现实情况下,我们不知道适当的分布是什么(甚至是足够接近的近似值)。使用审查和协变量,我们无法做一个简单的直方图并说“对我来说看起来像...的分布”。因此,拥有一种无需特定发行即可行之有效的技术非常有用。
为什么使用危险代替分布函数?考虑以下陈述:“ A组中的人在80岁时死亡的可能性是B组中的人的两倍”。现在这可能是正确的,因为B组中的人比A组中的人寿命更长,或者B组中的人的寿命较短,并且大多数人在80岁之前就已经去世,因此可能性很小。他们中的80岁去世,而A组中的足够多的人活到80岁,以致于相当多的人在该年龄死亡,而在该年龄死亡的可能性更高。因此,同样的说法可能意味着,在A组比在B组中好或坏。更有意义的是,在80岁以下的人们(每组)中,有多少比例会在81岁之前死亡。那就是危害(危害是分布函数/生存函数/等的函数)。该危害在半参数模型中更容易处理,然后可以为您提供有关分布的信息。
“我们”不一定。生存分析工具的范围从完全非参数的模型(如Kaplan-Meier方法)到完全参数的模型,您可以在模型中指定潜在危害的分布。每个都有其优点和缺点。
半参数方法(例如Cox比例风险模型)使您无需指定潜在的风险函数就可以摆脱困境。这可能会有所帮助,因为我们并不总是了解潜在的危害功能,而且在许多情况下也并不在意。例如,许多流行病学研究都想知道“暴露X会减少直到事件Y的时间吗?” 他们所关心的是患有X病和没有X病的患者之间的差异。在那种情况下,潜在的危害并不重要,并且错误指定风险的风险要比不了解风险更大。
但是有时候这也不是真的。我已经完成了完全参数化模型的工作,因为潜在的危害引起了人们的关注。