如何处理不存在(不丢失)的数据?


11

我从未真正找到任何好的文本或示例来说明如何处理任何分类器输入的“不存在”数据。我已经阅读了很多有关丢失数据的信息,但是对于与多变量输入相关的不存在或不存在的数据,该怎么办。我了解这是一个非常复杂的问题,并且会根据所使用的培训方法而有所不同...

例如,如果尝试使用良好的准确数据来预测多个跑步者的运动时间。在许多输入中,许多中可能的变量是:

  1. 输入变量-第一次跑步(是/否)
  2. 输入变量-前一圈时间(0-500秒)
  3. 输入变量-年龄
  4. 输入可变高度。。。更多输入变量等

&Output Predictor-预测的延迟时间(0-500秒)

可以通过几种方式(“ 1”)计算“ 2.之前的转圈时间”的“缺失变量”。第一次跑步者将始终等于N。但是对于初次跑步的“不存在数据”(其中“ 1.初次跑步” = Y),我应该给“ 2”赋予什么价值/待遇。前一圈吗?

例如,分配“ 2。之前的“ -99”或“ 0”之间的圈速会严重影响分布,使新跑步者表现良好。

我目前的培训方法是使用Logistic回归,SVM,NN和决策树


我应该补充一点,由于内在的不确定性,我一直在从训练和预测数据中剔除新手,但会喜欢比“忽略”更好的方法
知道2011年

Answers:


6

无需为不存在的首次跑步者的前一圈时间分配特殊值,只需将互动条件用于先前一圈的时间与第一次跑步者假人的倒数:

Yi=β0+β1FTRi+β2(NFTRi)×PLTi+...

这里

  • 是您的输入变量, Yi
  • 是你的其他变量, ...
  • 是第一次成为假人,FTRi
  • 是前一圈时间,PLTi
  • F T R i = 0时, N F T R i对于非首次跑步者等于1,是虚拟的。NFTRiFŤ[R一世=0

然后,首次跑步者的模型将是:

ÿ一世=β0+β1个+

对于非首次参赛者:

ÿ一世=β0+β2P大号Ť一世+

8

对于通过最大似然拟合的逻辑回归,只要模型中同时具有(1)和(2),那么无论您为(2)赋予新跑步者什么“默认”值,(1)的估计值将进行相应的调整。

X1个X2

η=α+β1个X1个+β2X2+

X2

η=α+β1个+

而对于现有的跑步者,它将是:

η=α+β2X2+

X2

η=α+β1个-99β2+

β1个-99β2=β1个

当然,如果您没有使用最大可能性(即您正在使用某种惩罚或对参数进行先验),那么除非您相应地调整惩罚/优先级,否则您将获得不同的值。如果模型是非线性的(例如SVM,NN和决策树),则此参数根本不起作用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.