我试图运行一个模型来估计结核病,艾滋病等灾难性疾病如何影响住院治疗。我将“每住院费用”作为因变量,并使用各种个体标记作为自变量,几乎所有变量都是虚拟变量,例如性别,户主,贫困状况,当然还有一个关于您是否生病(加上年龄)的虚拟变量。和年龄的平方)和一系列互动条件。
可以预料的是,有大量的数据(我的意思是很多)以零堆积(即,在12个月的参考期内没有住院费用)。处理此类数据的最佳方法是什么?
到目前为止,我决定将成本转换ln(1+cost)为包括所有观察值,然后运行线性模型。我在正确的轨道上吗?
我试图运行一个模型来估计结核病,艾滋病等灾难性疾病如何影响住院治疗。我将“每住院费用”作为因变量,并使用各种个体标记作为自变量,几乎所有变量都是虚拟变量,例如性别,户主,贫困状况,当然还有一个关于您是否生病(加上年龄)的虚拟变量。和年龄的平方)和一系列互动条件。
可以预料的是,有大量的数据(我的意思是很多)以零堆积(即,在12个月的参考期内没有住院费用)。处理此类数据的最佳方法是什么?
到目前为止,我决定将成本转换ln(1+cost)为包括所有观察值,然后运行线性模型。我在正确的轨道上吗?
Answers:
如现场其他地方所讨论的那样,序数回归(例如,比例几率,比例风险,概率)是一种灵活而强大的方法。的分布不连续,包括极度结块。假设没有关于单个的的分布。零膨胀模型比半参数模型做出的假设要多得多。有关完整的案例研究,请参阅http://biostat.mc.vanderbilt.edu/CourseBios330上的课程讲义第15章。Y X
连续的序数模型的一大优点是,您无需在分析之前就知道如何变换ÿ
聚集在0称为“零膨胀”。到目前为止,最常见的情况是计数模型,导致零膨胀的Poisson和零膨胀的负二项式回归。但是,有一些方法可以用真实的正值对零膨胀建模(例如,零膨胀伽玛模型)。
有关这些方法的综述,请参见Min和Agresti,2002年,以零成簇的非负数据建模。
使用零膨胀泊松模型的建议是一个有趣的开始。联合建模具有任何与疾病相关的成本的可能性以及如果您有任何疾病,这些成本最终变成什么的过程,具有一些好处。它的局限性在于,它对结果的形状施加了严格的结构,但前提是必须累积任何成本(例如,特定的均值-方差关系和正整数结果...后者可以在某些情况下放宽)建模目的)。
如果您可以独立处理以入院程序为条件的疾病相关的入院和疾病相关的费用,则可以通过首先对y / n的二元过程建模来扩展此范围,您是否累积了与疾病相关的任何费用?这是一个简单的逻辑回归模型,可让您评估风险因素和患病率。鉴于此,您可以将分析限制为已累积任何成本的个人子集,并使用大量建模技术来对实际成本过程进行建模。泊松是好的,准泊松会更好(考虑到数据中小的未测量的协方差来源和偏离模型假设的情况)。但是,对连续成本过程建模是无限的。
如果您绝对需要在过程中对参数的相关性进行建模,则可以使用引导SE估计。我没有理由认为这是无效的,但是如果这可能是错误的,我很想听听别人的意见。总的来说,我认为这是两个独立的问题,应该将其视为有效的推论。