我正在训练逻辑回归,以预测哪些运动员最有可能完成艰苦的耐力赛。
很少有跑步者完成这场比赛,所以我的课时失衡非常严重,并且只有很少的成功案例(也许是几十个)。我觉得我可以从几十个几乎做到这一点的跑步者那里得到一些好的“信号” 。(我的训练数据不仅完成了,而且还没有完成,实际达到了多少。)因此,我想知道是否包括一些“部分功劳”是一个糟糕的主意。我想出了一些用于部分功劳的函数,坡度和逻辑曲线,可以给它们提供各种参数。
与回归的唯一区别是,我将使用训练数据来预测修改后的连续结果,而不是二进制结果。比较他们对测试集的预测(使用二进制响应),我得出的结论还很不确定-逻辑部分信用似乎在某种程度上改善了R平方,AUC,P / R,但这只是使用小样本。
我不关心预言正在向着完成均匀偏见-我在意的是正确的排名上出现的可能性参赛者完成,或者甚至估计其相对整理的可能性。
我了解到逻辑回归假设预测变量与比值比的对数之间存在线性关系,并且如果我开始混淆结果,显然该比值没有任何实际解释。我确信从理论上讲这并不明智,但它可能有助于获得一些附加信号并防止过拟合。(我的预测变量几乎与成功一样多,因此使用部分完成的关系作为检查完全完成的关系可能会有所帮助)。
在负责任的实践中曾经使用过这种方法吗?
不管哪种方式,是否还有其他类型的模型(也许是某种明确地对危险率建模的模型,应用于距离而不是时间)可以更适合此类分析?