通过掷硬币来组合分类器


15

我正在学习机器学习课程,并且讲义幻灯片包含的信息与我推荐的书不符。

问题如下:存在三个分类器:

  • 分类器A在较低的阈值范围内提供更好的性能,
  • 分类器B在较高的阈值范围内提供更好的性能,
  • 分类器C我们通过翻转p硬币并从两个分类器中进行选择来获得什么。

从ROC曲线上看,分类器C的性能如何?

演讲幻灯片指出,只需翻转硬币,我们就可以得到分类器A和B的ROC曲线的神奇“ 凸包 ”。

我不明白这一点。仅仅通过掷硬币,我们如何获得信息?

演讲幻灯片

演讲幻灯片

这本书怎么说

推荐的书(《数据挖掘...》,作者:伊恩·H·威腾(Ian H. Witten),艾比·弗兰克(Eibe Frank)和马克·A。另一方面,)指出:

要看到这一点,请为方法A选择一个特定的概率临界值,分别给出真实的和错误的正比率tA和fA,为方法B选择另一个临界值,给出tB和fB。如果您以概率p和q随机使用这两种方案,其中p + q = 1,那么您将获得p的真假率。tA + q tB和p。fA + q fB。这表示位于连接点(tA,fA)和(tB,fB)的直线上的点,并且通过改变p和q可以找出这两个点之间的整条线。

以我的理解,这本书所说的是要真正获得信息并到达凸包,我们需要做的事情比简单地抛掷p硬币还要先进。

AFAIK,正确的方法(如书中所建议的)如下:

  1. 我们应该找到分类器A的最佳阈值Oa
  2. 我们应该找到分类器B的最佳阈值Ob
  3. 将C定义如下:

    • 如果t <Oa,则将分类器A与t一起使用
    • 如果t> Ob,则将分类器B与t一起使用
    • 如果Oa <t <Ob,则用概率作为我们在Oa和Ob之间的线性组合,在带Oa的分类器A和带Ob的B之间进行选择。

它是否正确?如果是,则与幻灯片建议的内容有一些主要差异。

  1. 这不是简单的掷硬币,而是一种更高级的算法,该算法需要根据我们所处的区域手动定义点和拾取。
  2. 它永远不会使用阈值介于Oa和Ob之间的分类器A和B。

你能给我解释一下这个问题什么是正确的理解方式,如果我的理解是不正确的?

如果我们像幻灯片所示那样简单地翻转p硬币,将会发生什么?我认为我们会得到一个介于A和B之间的ROC曲线,但是在给定的点上永远不会比更好的ROC曲线“更好”。

据我所知,我真的不理解幻灯片的正确性。左侧的概率计算对我来说没有意义。

更新: 找到了发明凸包方法的原始作者写的文章:http : //www.bmva.org/bmvc/1998/pdf/p082.pdf


从您阅读的幻灯片和本书摘录的阅读中,它们似乎在描述完全相同的内容,并且幻灯片没有错误。
主教

请注意,构造一个模拟以使自己相信幻灯片中陈述的事实也不太困难。您可能遇到的唯一困难是,构造两条看起来大致像这样的ROC曲线,但是使用高斯混合模型生成观测值和一些次优的决策规则,这是可以管理的。
主教

Answers:


12

(已编辑)

演讲幻灯片是正确的。

方法A具有“最佳点”,该“最佳点”分别给出了真假率(图中的TPA,FPA)。该点将对应于阈值,或更一般地对应于A的最佳决策边界。B同样如此(但阈值和边界不相关)。

可以看出,当我们要“最大化真实的积极性”(渴望策略)时,分类器A在“最小化误报”(保守策略)和分类器B的表现很好。

第一个问题的答案基本上是肯定的,只是硬币的概率(在某种意义上)是任意的。最终的竞争者将是:

xxp并使用分类器A或B。

(更正:实际上,讲座是完全正确的,在任何情况下我们都可以掷硬币。参见图表)

p

[*]您在这里应该很笼统:如果您考虑单个标量阈值,那么所有这些都没有多大意义;具有基于阈值的分类器的一维特征无法为您提供足够的自由度,以使A和B具有不同的分类器,当自由参数(决策边界=阈值)变化时,分类器会沿着不同的曲线执行。换句话说:A和B被称为“方法”或“系统”,而不是“分类器”;因为A是整个分类器家族,由确定决策边界的参数(标量)参数化,而不仅仅是标量]

我添加了一些图表以使其更加清晰:

在此处输入图片说明

ttttA=2ttB=4

那么,在这种情况下,可以说填充的橙色线是“最优A分类器”(在其族内),对于B来说也是相同的。当我们将高成本分配给误报时,效果会更好;反之,当我们将高成本分配给误报时,效果会更好。

在此处输入图片说明

现在,这两种分类器可能无法满足我们的需求,我们希望两种类型的错误具有相似的权重。我们希望不要使用分类器A(橙色点)或B(蓝色点)来达到它们之间的性能。当然,只要掷硬币并随机选择一个分类器就可以达到这一目的。

仅仅通过掷硬币,我们如何获得信息?

我们不会获得信息。在分配给每种错误类型的成本方面,我们新的随机分类器并非简单地比A或B“好”,它的性能约为A和B的平均值。根据我们的成本,这对我们是否有利。

AFAIK,正确的方法(如书中所建议的)如下:这是正确的吗?

p


@leonboy我认为x是阈值,对于x分类器A的低值,效果最好。对于较高的x分类器B,效果最好。最好的说,对于给定的假阳性率,真实阳性率最高。如果我们只知道A最好在单个点交叉和B交叉的所有点上都工作得最好,那么在FPa和FPb之间的区域中A的TP较高的任何算法给A权重小于1的算法都无法执行因此,这种算法C必须在该区域内降至A以下。
Michael R. Chernick

类似地,在FPa和FPb之间的区域中,对于B而言TP更高,p大于0的算法将不会比B更好。TPc的公式是正确的,但是TPb和TPa之间的固定加权平均值不能大于TPa的较大值。和TPb。它必须落在他们之间。但是,该图始终显示从FPa和FPb到整个区域,TPc都高于TPa和TPb。您在这里看到我们所缺少的东西吗?我在您的答案中找不到。
Michael R. Chernick

1
好的,灯泡熄灭了!X在您心中是一个向量,而不是标量阈值。这真的有什么改变吗?FP aixs是一个标量概率。我的交叉点是A和B的FP等式点。可能有许多向量X导致它。我只是说在FPa和FPb之间沿FP轴的任何点。TPc = p TPa +(1-p)TPb。图中的线在TP与FP平面中。当OP质疑时,那条线如何穿过A和B曲线上方的点(我认为是正确的)?
Michael R. Chernick

1
@Michael:我认为A和B是给出不同边界决策的不同方法。每个参数都有一个可调整的参数(一维中的阈值),这些参数是独立的,并为每个分类器提供分类器。我将尝试绘制一个图表以尝试澄清,请稍等。
leonbloy 2012年

1
我为leonbloy做了漂亮的描述。但我喜欢红衣主教的最后评论,因为该论点对我很清楚,并且与我的最新想法一致。@leobloy图中遗漏的一件事是绘制了击败了两个单独规则的随机规则的点图。我想您可以将新规则描述为对这两个错误进行不同加权的规则,但这不是必须的,并且如果您不考虑该论点,我认为不会造成混淆。
Michael R. Chernick

2

我同意你的推理。如果当您在A点和B点之间时通过硬币翻转使用分类器来选择一个,则曲线上的点将始终在较好的分类器之下,在较差的分类器之上,而可能不在两者之上!该图一定有问题。在2条ROC曲线交叉处,随机选择算法将具有与两种算法相同的性能。它不会以图表描述的方式位于其上方。


1
我相信幻灯片是正确的。如果您使用两个具有两个不同阈值的不同决策过程,然后进行随机决策,则将得到凸组合,这将给出介于两者之间的一个点。该点可能以相同的误报率高于曲线的两个)。这是因为此时每个过程使用的阈值不同。
主教

1
因此,凸组合中的A和B与以该误报率单独选择的A和B不同。我只是认为该图令人困惑,因为我没有看到A和B是从一个分类器家族中选择的。
迈克尔·Chernick

1
是的,图表和周围的文字有点混乱!我花了几分钟才解开它。您确定了每条曲线的两个决策程序,例如一种 曲线和上驼峰 曲线。这为每个定义了一个规则。然后,随机规则是掷硬币并从相应的分类器中做出决定。这样就产生了一条新的规则,它们的TP和FP速率不同,两者均给出了凸组合。(注意:要获得一条ROC曲线,就需要一个参数化的分类器系列。)
主教

我相信这个答案是正确的,并附有枢机主教的评论!离开交叉路口可能会发生,但这不是一种方法。我从发明此方法的人那里找到了原始论文,并且解释得很好!bmva.org/bmvc/1998/pdf/p082.pdf
hyperknot

@zsero:我相信,即使Michael也会承认该答案是基于发布答案时对图表的理解,并且自从评论和其他答案出现以来,他对该图的解释已经改变。正如该图所示,即使在给定的假阳性率下,所得到的真实阳性率在其他两条曲线上占主导地位,也可以通过随机化实现第一条曲线上的点与第二条曲线上的点之间的任意线上的任何点。
主教
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.