最小风险分类器的计算阈值?


11

假设两个类和具有属性并具有分布和。如果我们对于以下成本矩阵具有相等的先验:C1C2xN(0,0.5)N(1,0.5)P(C1)=P(C2)=0.5

L=[00.510]

为什么是最低风险(成本)分类器的阈值?x0<0.5

这是我误会的注释示例(即,如何达到此阈值?)

编辑1:我认为对于似然比的阈值,我们可以使用P(C1)/ P(C2)。

编辑2:我从Duda Book on Pattern上添加了一些有关阈值的文本。 在此处输入图片说明

Answers:


4

对于成本矩阵

L=[00.510]c1c2predictionc1c2truth

为类时预测类的损失为,而真为类时预测类的损失为。正确的预测没有成本,。条件风险用于预测任一类然后c1c2L12=0.5c2c1L21=1L11=L22=0Rk

R(c1|x)=L11Pr(c1|x)+L12Pr(c2|x)=L12Pr(c2|x)R(c2|x)=L22Pr(c2|x)+L21Pr(c1|x)=L21Pr(c1|x)
对于参考,请参阅第15页上的这些说明

为了最大程度地降低风险/损失,您可以预测是否因错误而付出的代价(即错误的预测损失乘以预测错误的后验概率)小于错误地预测替代方案的成本,c1L12Pr(c2|x)

L12Pr(c2|x)<L21Pr(c1|x)L12Pr(x|c2)Pr(c2)<L21Pr(x|c1)Pr(c1)L12Pr(c2)L21Pr(c1)<Pr(x|c1)Pr(x|c2)
,其中第二行使用贝叶斯规则。给定相等的先验概率您得到 Pr(c2|x)Pr(x|c2)Pr(c2)Pr(c1)=Pr(c2)=0.5
12<Pr(x|c1)Pr(x|c2)

因此您选择将观察值分类为是似然比超过此阈值。现在,我不清楚您是要根据似然比还是就属性来了解“最佳阈值” 。答案根据成本函数而变化。在不等式利用高斯与和,, c1xσ1=σ2=σμ1=0μ2=1

12<12πσexp[12σ2(xμ1)2]12πσexp[12σ2(xμ2)2]log(12)<log(12πσ)12σ2(x0)2[log(12πσ)12σ2(x1)2]log(12)<x22σ2+x22σ22x2σ2+12σ2xσ2<12σ2log(12)x<12log(12)σ2
因此根据的预测阈值x当您进行搜索时,只有在错误预测导致的损失相同的情况下才能实现,即因为只有这样,您才能拥有,您得到。L12=L21log(L12L21)=log(1)=0x0<12

很好的答案,但让我困惑!如果要选择或,那么哪个正确?x0=0.5x0<0.5
user153695'1

因此,就在决策边界您无法确切判断观察值应属于一类还是二类(因为它恰好位于边界上)。因此,如果或决定是否将观察置于1类中。对于足够大的样本,很少会出现这种情况,因此,对于您的结果而言,重要的是垃圾。x0=0.5ix00.5x0<0.5
安迪

我所有的问题使我的教授受益匪浅。计算得出的且不接受请参阅我的相关问题,我的阈值应为。x0<0.5x0=0.5x0<0.5
user153695'1

也许0.5
英寸

1
@whuber谢谢,我完全错过了,所以我从一个完全错误的结尾开始。
安迪
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.