Answers:
数据是在未知的意义上“丢失” 还是仅表示没有贷款(因此贷款金额为零)?听起来就像是后者,在这种情况下,您需要一个附加的二进制虚拟对象以指示是否有贷款。无需对贷款金额进行任何转换(也许除了连续重新表达外,例如根目录或开始的日志,可以通过其他考虑来表示)。
这在回归分析中效果很好。一个简单的例子是形式的概念模型
加上贷款指标(),回归模型为
与代表与零个预期随机误差。系数解释为:
ÿ X = 0 我= 0是无贷款情况下的期望值,因为它们的特征是和。
ÿ X是相对于借贷金额()的边际变化。
是贷款案例的截距。
我认为您误解了这篇文章的建议:主要是因为该建议没有任何意义。然后,您将遇到两个问题:如何重新编码变量,并且变量值仍然丢失。可能建议的是创建一个缺失指示器。
与该描述大致匹配的处理缺失数据的某种相关方法是调整缺失指示符。这当然是一种简单易行的方法,但总的来说是有偏见的。偏见的弊端是无限的。这实际上是对两个模型进行拟合并将它们的效果平均在一起:第一个模型是完全条件模型,第二个模型是完整因子模型。完全条件模型是完整的案例模型,其中删除了每个缺失值的观察值。因此,它适合20%的数据子集。第二个是对剩余的80%的拟合,根本不调整缺失值。当没有不可度量的交互作用,链接函数可折叠以及数据随机丢失(MAR)时,此边际模型估计的效果与完整模型相同。然后,将这些效果通过加权平均值合并。即使在理想条件下,也没有不可测的相互作用,并且在随机(MCAR)数据中完全丢失,由于边缘模型和条件模型估计的效果不同,所以缺少指标方法会导致偏差的影响。在这种情况下,甚至预测都是有偏差的。
更好的选择是仅使用多重插补。即使以非常低的患病率来衡量最缺失的因素,MI仍然可以很好地生成可能值的复杂实现。这里唯一必要的假设是MAR。