我知道传统的统计模型,例如Cox比例风险回归和一些Kaplan-Meier模型,可以用来预测直到下次事件发生的天数,例如失败等,例如生存分析
问题
- 机器学习模型(例如GBM,神经网络等)的回归版本如何用于预测事件发生之前的天数?
- 我相信仅将发生之前的天数用作目标变量并仅运行回归模型是行不通的?为什么不起作用?如何解决?
- 我们可以将生存分析问题转换为分类,然后获得生存概率吗?如果那么该如何创建二进制目标变量?
- 机器学习方法与Cox比例风险回归和Kaplan-Meier模型等的优缺点是什么?
想象一下样本输入数据的格式如下
注意:
- 传感器每隔10分钟对数据进行ping操作,但有时由于网络问题等原因可能会丢失数据,如带有NA的行所示。
- var1,var2,var3是预测变量,解释变量。
- failure_flag告知计算机是否发生故障。
- 每个机器ID每10分钟间隔有最近6个月的数据
编辑:
注意:我想预测未来30天每天每台计算机发生故障的可能性。
failure_flag
。