在训练逻辑回归中给予“部分信誉”(连续结果)是否是一个好主意?


10

我正在训练逻辑回归,以预测哪些运动员最有可能完成艰苦的耐力赛。

很少有跑步者完成这场比赛,所以我的课时失衡非常严重,并且只有很少的成功案例(也许是几十个)。我觉得我可以从几十个几乎做到这一点的跑步者那里得到一些好的“信号” 。(我的训练数据不仅完成了,而且还没有完成,实际达到了多少。)因此,我想知道是否包括一些“部分功劳”是一个糟糕的主意。我想出了一些用于部分功劳的函数,坡度和逻辑曲线,可以给它们提供各种参数。

在此处输入图片说明

与回归的唯一区别是,我将使用训练数据来预测修改后的连续结果,而不是二进制结果。比较他们对测试集的预测(使用二进制响应),我得出的结论还很不确定-逻辑部分信用似乎在某种程度上改善了R平方,AUC,P / R,但这只是使用小样本。

我不关心预言正在向着完成均匀偏见-我在意的是正确的排名上出现的可能性参赛者完成,或者甚至估计其相对整理的可能性。

我了解到逻辑回归假设预测变量与比值比的对数之间存在线性关系,并且如果我开始混淆结果,显然该比值没有任何实际解释。我确信从理论上讲这并不明智,但它可能有助于获得一些附加信号并防止过拟合。(我的预测变量几乎与成功一样多,因此使用部分完成的关系作为检查完全完成的关系可能会有所帮助)。

在负责任的实践中曾经使用过这种方法吗?

不管哪种方式,是否还有其他类型的模型(也许是某种明确地对危险率建模的模型,应用于距离而不是时间)可以更适合此类分析?

Answers:


11

这似乎是生存分析的工作,例如Cox比例风险分析或可能的某些参数生存模型。

与您解释时相反地考虑这个问题:与更早的退出距离相关的预测变量是什么?

戒烟是大事。在标准的生存分析中,覆盖的距离可能被认为等同于事件发生的时间。然后,您有许多事件等于退出的人数,因此,预测变量数量有限的问题将减少。所有退出者都提供信息。

Cox模型(如果对您的数据有效)将基于所有预测变量值提供线性预测变量,从而按照预测的退出距离对选手进行排名。


谢谢你 听起来您似乎在说,使用Cox模型,由于比例风险构造,具有预计的最大退出距离的跑步者在结束距离之前退出的可能性也最小。准确吗?另外,由于您是推荐这样做的工具,所以猜测部分信用的想法并没有使您有充分根据吗?
C8H10N4O2 '02

基本上是正确的。我看到将生存距离模型纳入生存模型,以此作为“部分信誉”的一种方式,这种方式具有公认的理论和实践依据。尚未详细研究细节,但是我怀疑这完全可以实现您所期望的效果,如图所示。
EdM '16
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.