我正在学习机器学习课程,并且讲义幻灯片包含的信息与我推荐的书不符。
问题如下:存在三个分类器:
- 分类器A在较低的阈值范围内提供更好的性能,
- 分类器B在较高的阈值范围内提供更好的性能,
- 分类器C我们通过翻转p硬币并从两个分类器中进行选择来获得什么。
从ROC曲线上看,分类器C的性能如何?
演讲幻灯片指出,只需翻转硬币,我们就可以得到分类器A和B的ROC曲线的神奇“ 凸包 ”。
我不明白这一点。仅仅通过掷硬币,我们如何获得信息?
演讲幻灯片
这本书怎么说
推荐的书(《数据挖掘...》,作者:伊恩·H·威腾(Ian H. Witten),艾比·弗兰克(Eibe Frank)和马克·A。另一方面,)指出:
要看到这一点,请为方法A选择一个特定的概率临界值,分别给出真实的和错误的正比率tA和fA,为方法B选择另一个临界值,给出tB和fB。如果您以概率p和q随机使用这两种方案,其中p + q = 1,那么您将获得p的真假率。tA + q tB和p。fA + q fB。这表示位于连接点(tA,fA)和(tB,fB)的直线上的点,并且通过改变p和q可以找出这两个点之间的整条线。
以我的理解,这本书所说的是要真正获得信息并到达凸包,我们需要做的事情比简单地抛掷p硬币还要先进。
AFAIK,正确的方法(如书中所建议的)如下:
- 我们应该找到分类器A的最佳阈值Oa
- 我们应该找到分类器B的最佳阈值Ob
将C定义如下:
- 如果t <Oa,则将分类器A与t一起使用
- 如果t> Ob,则将分类器B与t一起使用
- 如果Oa <t <Ob,则用概率作为我们在Oa和Ob之间的线性组合,在带Oa的分类器A和带Ob的B之间进行选择。
它是否正确?如果是,则与幻灯片建议的内容有一些主要差异。
- 这不是简单的掷硬币,而是一种更高级的算法,该算法需要根据我们所处的区域手动定义点和拾取。
- 它永远不会使用阈值介于Oa和Ob之间的分类器A和B。
你能给我解释一下这个问题,什么是正确的理解方式,如果我的理解是不正确的?
如果我们像幻灯片所示那样简单地翻转p硬币,将会发生什么?我认为我们会得到一个介于A和B之间的ROC曲线,但是在给定的点上永远不会比更好的ROC曲线“更好”。
据我所知,我真的不理解幻灯片的正确性。左侧的概率计算对我来说没有意义。
更新: 找到了发明凸包方法的原始作者写的文章:http : //www.bmva.org/bmvc/1998/pdf/p082.pdf