我试图运行一个模型来估计结核病,艾滋病等灾难性疾病如何影响住院治疗。我将“每住院费用”作为因变量,并使用各种个体标记作为自变量,几乎所有变量都是虚拟变量,例如性别,户主,贫困状况,当然还有一个关于您是否生病(加上年龄)的虚拟变量。和年龄的平方)和一系列互动条件。
可以预料的是,有大量的数据(我的意思是很多)以零堆积(即,在12个月的参考期内没有住院费用)。处理此类数据的最佳方法是什么?
到目前为止,我决定将成本转换ln(1+cost)
为包括所有观察值,然后运行线性模型。我在正确的轨道上吗?