我从未真正找到任何好的文本或示例来说明如何处理任何分类器输入的“不存在”数据。我已经阅读了很多有关丢失数据的信息,但是对于与多变量输入相关的不存在或不存在的数据,该怎么办。我了解这是一个非常复杂的问题,并且会根据所使用的培训方法而有所不同...
例如,如果尝试使用良好的准确数据来预测多个跑步者的运动时间。在许多输入中,许多中可能的变量是:
- 输入变量-第一次跑步(是/否)
- 输入变量-前一圈时间(0-500秒)
- 输入变量-年龄
- 输入可变高度。。。更多输入变量等
&Output Predictor-预测的延迟时间(0-500秒)
可以通过几种方式(“ 1”)计算“ 2.之前的转圈时间”的“缺失变量”。第一次跑步者将始终等于N。但是对于初次跑步的“不存在数据”(其中“ 1.初次跑步” = Y),我应该给“ 2”赋予什么价值/待遇。前一圈吗?
例如,分配“ 2。之前的“ -99”或“ 0”之间的圈速会严重影响分布,使新跑步者表现良好。
我目前的培训方法是使用Logistic回归,SVM,NN和决策树