1
我只是发明了一种用于分析ROC曲线的贝叶斯方法吗?
前言 这是一个很长的帖子。如果您正在重新阅读本文档,请注意,尽管背景材料保持不变,但我已经修改了问题部分。此外,我相信我已经设计出解决该问题的方法。该解决方案显示在帖子的底部。感谢CliffAB指出我的原始解决方案(从该帖子中编辑;请参阅该解决方案的编辑历史)必定产生了偏差估计。 问题 在机器学习分类问题中,评估模型性能的一种方法是通过比较ROC曲线或ROC曲线下的面积(AUC)。但是,据我观察,对ROC曲线的可变性或AUC的估计很少进行讨论。也就是说,它们是根据数据估算的统计信息,因此存在一些与之相关的错误。表征这些估计中的误差将有助于表征,例如,一个分类器是否确实优于另一个分类器。 为了解决这个问题,我开发了以下方法(称为ROC曲线的贝叶斯分析)。我对这个问题的思考有两个主要观察结果: ROC曲线由来自数据的估计数量组成,并且适合贝叶斯分析。 ROC曲线是通过将真实的阳性率对于假阳性率绘制而成的,每个假性率本身都是根据数据估算的。我考虑和函数,用于从B对A类进行排序的决策阈值(随机森林中的树票,SVM中距超平面的距离,逻辑回归中的预测概率等)。改变决策阈值值将返回和不同估计值。此外,我们可以考虑˚F P - [R (θ )Ť P ř ˚F P - [R θ θ Ť P ř ˚F P ř Ť P - [R (θ )Ť PŤPR (θ )TPR(θ)TPR(\theta)FPR (θ )FPR(θ)FPR(\theta)ŤP[RTPRTPRFP[RFPRFPRθθ\thetaθθ\thetaŤP[RTPRTPRFP[RFPRFPRŤPR (θ )TPR(θ)TPR(\theta)在一系列的伯努利试验中估计成功的可能性。实际上,TPR定义为它也是成功且总试验中二项式成功概率的MLE 。TPTP+FN>0ŤPŤP+ Fñ,TPTP+FN,\frac{TP}{TP+FN},ŤPTPTPŤP+ Fñ> 0TP+FN>0TP+FN>0 因此,通过将和的输出视为随机变量,我们面临着一个估计二项式实验成功概率的问题,在该二项式实验中,成功和失败的数目是确切已知的(给定通过,,和,我假设都是固定的)。按照惯例,仅使用MLE,并假设TPR和FPR对于特定值是固定的˚F P - [R (θ )Ť P …