Answers:
使用SVM分类器对一组带注释的示例进行分类,并且可以基于示例的一个预测来识别ROC空间上的“一个点”。假设示例数为200,首先计算四种情况下的示例数。
然后计算TPR(真阳性率)和FPR(假阳性率)。,F P R = 28 /(28 + 44 )= 0.3889在ROC空间上,x轴为FPR,y轴为TPR。所以点(0.3889 ,0.5547 )获得。
要绘制ROC曲线,只需
(1)调整一些阈值即可控制标记为true或false的示例数
例如,如果某种蛋白质的浓度超过α%表示某种疾病,则不同的α值会产生不同的最终TPR和FPR值。可以通过类似于网格搜索的方式简单地确定阈值。标记具有不同阈值的训练示例,训练具有不同标记示例集的分类器,对测试数据运行分类器,计算FPR值并选择覆盖低(接近0)和高(接近1)FPR的阈值值,即接近0、0.05、0.1,...,0.95、1
(2)生成许多带注释的示例集
(3)对这些示例集运行分类器
(4)计算一个(FPR,TPR)点为每一个
(5)绘制最终的ROC曲线
可以在http://en.wikipedia.org/wiki/Receiver_operating_characteristic中检查一些详细信息。
此外,这两个链接对于如何确定最佳阈值很有用。一种简单的方法是取最大正负假率之和。其他更精细的标准可能包括涉及不同阈值的其他变量,例如财务成本等
。http : //www.medicalbiostatistics.com/roccurve.pdf
http://www.kovcomp.co.uk/support/XL-Tut/life-ROC -curves-receiver-operating-characteristic.html
选择阈值的一种真正简单的方法是获取测试集阳性病例的中值预测值。这成为您的门槛。
该阈值相对接近于使用roc曲线所获得的相同阈值,其中roc曲线的真阳性率(tpr)和1-假阳性率(fpr)重叠。此tpr(交叉)1-fpr交叉最大程度地提高了正阳性率,同时最大程度减少了假阴性。