Statistics.com发布了本周的问题: 居民保险欺诈率是10%(十分之一的请求是欺诈性的)。一位顾问提出了一种机器学习系统,以审查索赔并将其分类为欺诈或无欺诈。该系统在检测欺诈性索赔方面有90%的效率,但在正确分类非欺诈性索赔方面只有80%的效率(错误地将五分之一标记为“欺诈”)。如果系统将索赔分类为欺诈,那么它真的是欺诈的概率是多少?
https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true
我和我的同伴都分别提出了相同的答案,但与发布的解决方案不符。
我们的解决方案:
(.9 * .1)/((。9 * .1)+(。2 * .9))= 1/3
他们的解决方案:
这是条件概率中的问题。(这也是一个贝叶斯问题,但是在贝叶斯规则中应用该公式仅有助于掩盖正在发生的事情。)考虑100个索赔。10个是欺诈性的,系统会正确地将其中9个标记为“欺诈”。90个索赔将是正确的,但系统会将72(80%)错误地分类为“欺诈”。因此总共标记了81个索赔作为欺诈行为,但实际上只有9个(占11%)是欺诈行为。
谁是对的
4
看起来他们更正了他们网站上的解决方案以符合您的计算结果
—
不,
@nope,悄悄地纠正了答案。偷偷摸摸
—
Aksakal
琐事:在行为决策中,此问题通常被称为“乳房X线照片问题”,因为其通常的表现是关于患者的乳房X射线照片为阳性的机会。
—
Kodiologist
“好消息是,我们的系统将90%的欺诈归类为欺诈。坏消息是,它将80%的非欺诈归类为欺诈。” 请注意,他们计算的11%仅略高于10%的基本费率。在标记的案例中,欺诈率仅比基本率高10%的机器学习模型非常糟糕。
—
累计
这就是所谓的假阳性悖论
—
BlueRaja-Danny Pflughoeft