Answers:
在进行逻辑回归时,将为您提供两个编码为和。现在,您可以计算给定一些解释性变量的概率,该概率属于一个个人,其编码为。如果您现在选择一个概率阈值,并将概率大于此阈值的所有个体归为类,并归类为0 1 1 0,大多数情况下您会犯一些错误,因为通常无法完美地区分两组。对于此阈值,您现在可以计算错误以及所谓的敏感性和特异性。如果对许多阈值执行此操作,则可以通过针对许多可能阈值绘制灵敏度对1-Specificity的曲线来构建ROC曲线。如果您想比较尝试区分两个类别的不同方法(例如判别分析或概率模型),曲线下的区域将发挥作用。您可以为所有这些模型构建ROC曲线,并且曲线下面积最大的ROC曲线可以视为最佳模型。
逻辑回归模型是直接概率估计方法。分类在其使用中不起作用。除非常特殊的紧急情况外,任何不基于评估各个主题的效用(损失/成本函数)的分类都是不合适的。ROC曲线在这里没有帮助;像总体分类准确性一样,敏感性或特异性也不是由伪造模型优化的不正确的准确性评分规则,而伪造模型并未通过最大似然估计进行拟合。
请注意,通过过度拟合数据可以实现较高的预测辨别力(较高的指数(ROC区域))。在的最不频繁类别中,您可能需要至少观测值,其中是要考虑的候选预测变量的数量,以便获得一个没有明显过拟合的模型(即,一个可能在新数据上起作用的模型)以及在训练数据上的效果]。您仅需要估计至少96个观察值,即可估计截距,以使预测风险的误差范围为,置信度为0.95。15 p ý p ≤ 0.05
我不是该博客的作者,我发现此博客非常有帮助:http : //fouryears.eu/2011/10/12/roc-area-under-the-curve-explained
将此解释应用于您的数据,平均阳性样本中约10%的阴性样本得分高于该样本。