单个变量中80%的丢失数据


12

我的数据中有一个变量有80%的缺失数据。由于不存在(即公司欠多少银行贷款)而导致数据丢失。我碰到一篇文章,说伪变量调整方法是解决此问题的方法。这意味着我需要将此连续变量转换为分类变量吗?

这是唯一的解决方案吗?从理论上讲,我不想删除该变量,这对我的研究问题很重要。

Answers:


21

数据是在未知的意义上“丢失” 还是仅表示没有贷款(因此贷款金额为零)?听起来就像是后者,在这种情况下,您需要一个附加的二进制虚拟对象以指示是否有贷款。无需对贷款金额进行任何转换(也许除了连续重新表达外,例如根目录或开始的日志,可以通过其他考虑来表示)。

这在回归分析中效果很好。一个简单的例子是形式的概念模型

dependent variable (Y) = loan amount (X) + constant.

加上贷款指标(),回归模型为I

Y=βII+βXX+β0+ϵ

与代表与零个预期随机误差。系数解释为:ϵ

ÿ X = 0 = 0β0是无贷款情况下的期望值,因为它们的特征是和。YX=0I=0

ÿ XβX是相对于借贷金额()的边际变化。YX

βI+β0是贷款案例的截距。


2
他们不会被视为失踪,他们会评估没有贷款的价值。也许你已经取得了不贷“NA”在这种情况下,你需要重新编写那些为0
约翰·

2
@John谢谢,这正是我的建议。关键是要以任何适当的方式(例如log(amount + 1))表达贷款价值(),并在没有贷款的情况下设置和。这是回归的标准技术,包括逻辑回归。X = 0 I = 1XX=0I=1
ub

3
@ lcl23如果我正确理解了这种情况,那么插补就没有意义了:您的“丢失”数据不会丢失;他们表示没有贷款。
Whuber

1
@Bakaburg我认为您可能已经倒退了,但这并不重要-两种模型(使用和)将是等效的。有没有这样的指标的模型中的预测值会有所不同,所以我不明白您要问什么。请注意,“ nondetect”与“不存在”有很大的不同!如果您的检测极限足够小,则无需为它们引入虚拟对象。如果有需要的话,引入一个假人可能有点太粗糙了。在那种情况下,请考虑使用分析删失或区间值数据的方法。X = 0 I(X=1)I(X=0)
ub

1
答案就在这里。当虚拟对象为,值添加到预测中。当虚拟对象为,该值将消失。这里的所有都是它的。β 01βI0
ub

1

我认为您误解了这篇文章的建议:主要是因为该建议没有任何意义。然后,您将遇到两个问题:如何重新编码变量,并且变量值仍然丢失。可能建议的是创建一个缺失指示器

与该描述大致匹配的处理缺失数据的某种相关方法是调整缺失指示符。这当然是一种简单易行的方法,但总的来说是有偏见的。偏见的弊端是无限的。这实际上是对两个模型进行拟合并将它们的效果平均在一起:第一个模型是完全条件模型,第二个模型完整因子模型。完全条件模型是完整的案例模型,其中删除了每个缺失值的观察值。因此,它适合20%的数据子集。第二个是对剩余的80%的拟合,根本不调整缺失值。当没有不可度量的交互作用,链接函数可折叠以及数据随机丢失(MAR)时,此边际模型估计的效果与完整模型相同。然后,将这些效果通过加权平均值合并。即使在理想条件下,也没有不可测的相互作用,并且在随机(MCAR)数据中完全丢失,由于边缘模型和条件模型估计的效果不同,所以缺少指标方法会导致偏差的影响。在这种情况下,甚至预测都是有偏差的。

更好的选择是仅使用多重插补。即使以非常低的患病率来衡量最缺失的因素,MI仍然可以很好地生成可能值的复杂实现。这里唯一必要的假设是MAR。


“链接功能可折叠”是什么意思?
马修·德鲁里

1
@MatthewDrury基本上,“可折叠性”意味着调整预测结果而不是主要效果的变量将提高精度,但不会改变估计的效果。
AdamO '18年

很好,谢谢亚当。以前没有听说过该术语。
马修·德鲁里
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.