我正在使用Logistic回归建模糖尿病预测。所使用的数据集是疾病控制中心(CDC)的 行为危险因素监视系统(BRFSS)。自变量之一是高血压。分为以下级别“是”,“否”,“不知道/拒绝”。在构建模型时,是否应使用“不知道/拒绝”删除那些行?从模型中保留或删除这些行有什么区别?
我正在使用Logistic回归建模糖尿病预测。所使用的数据集是疾病控制中心(CDC)的 行为危险因素监视系统(BRFSS)。自变量之一是高血压。分为以下级别“是”,“否”,“不知道/拒绝”。在构建模型时,是否应使用“不知道/拒绝”删除那些行?从模型中保留或删除这些行有什么区别?
Answers:
在分析最新的《国家医院出院调查》数据时,我只是想知道完全相同的问题。有几个变量具有实质性的缺失值,例如婚姻状况和程序类型。这个问题引起了我的注意,因为这些类别在我运行的大多数逻辑回归分析中都表现出强大(且显着)的效果。
人们倾向于怀疑为什么缺少代码。例如,在婚姻状况的情况下,可能无法提供这一信息可能与诸如社会经济状况或疾病类型等重要因素有关。如果您患有高血压,我们应该问为什么不知道或拒绝该值?这可能与机构的实践(也许反映了宽松的程序)甚至与个人(例如宗教信仰)有关。这些特征又可能与糖尿病有关。因此,建议您按原样继续操作,而不要将这些值编码为缺失值(从而将它们从分析中完全排除)或尝试插补值(这会有效地掩盖它们提供的信息并可能使结果产生偏差),这是明智的选择。确实没有任何困难:您只需要确保将此变量视为分类变量,即可在回归输出中获得一个系数。此外,我怀疑BRFSS数据集足够大,您不必担心功耗。
首先,您必须考虑丢失的数据是完全随机丢失(MCAR),随机丢失(MAR)还是不是随机丢失(MNAR),因为删除(换句话说,完整案例分析)可能会导致结果有偏差。替代方法是逆概率加权,多重插补,全似然法和双稳健法。链式方程式(MICE)的多重插补(通常是最简单的方法)。
您是否有理由认为患有糖尿病的研究对象更有可能最终获得DK / R反应?如果不是这样(我很惊讶地发现您这样做了),那么在不包含这些情况的模型中包含此预测变量将导致噪声。也就是说,在评估“是”与“否”如何影响估计的糖尿病概率时,最终的准确性会降低(因为您将尝试对“是”或“否”的影响进行建模)相对于随机DK / R响应,而不是“是”与“否”)。最直接的选择是排除具有DK / R响应的情况。假设确实确实随机缺少他们的“是/否”回答,排除他们不会使您对“是”与“是”的影响的估计产生偏差。“没有。” 但是,该方法将减少您的样本量,从而降低有关其余预测变量的统计能力。如果此变量上有很多DK / R,则可能希望通过多重插补(可以说是最多,也许唯一的可辩护的缺失值插补策略)来插补“是” /“否”响应。