Statistics.com是否发布了错误的答案?


28

Statistics.com发布了本周的问题: 居民保险欺诈率是10%(十分之一的请求是欺诈性的)。一位顾问提出了一种机器学习系统,以审查索赔并将其分类为欺诈或无欺诈。该系统在检测欺诈性索赔方面有90%的效率,但在正确分类非欺诈性索赔方面只有80%的效率(错误地将五分之一标记为“欺诈”)。如果系统将索赔分类为欺诈,那么它真的是欺诈的概率是多少?

https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true

我和我的同伴都分别提出了相同的答案,但与发布的解决方案不符。

我们的解决方案:

(.9 * .1)/((。9 * .1)+(。2 * .9))= 1/3

他们的解决方案:

这是条件概率中的问题。(这也是一个贝叶斯问题,但是在贝叶斯规则中应用该公式仅有助于掩盖正在发生的事情。)考虑100个索赔。10个是欺诈性的,系统会正确地将其中9个标记为“欺诈”。90个索赔将是正确的,但系统会将72(80%)错误地分类为“欺诈”。因此总共标记了81个索赔作为欺诈行为,但实际上只有9个(占11%)是欺诈行为。

谁是对的


4
看起来他们更正了他们网站上的解决方案以符合您的计算结果
不,

2
@nope,悄悄地纠正了答案。偷偷摸摸
Aksakal

琐事:在行为决策中,此问题通常被称为“乳房X线照片问题”,因为其通常的表现是关于患者的乳房X射线照片为阳性的机会。
Kodiologist

“好消息是,我们的系统将90%的欺诈归类为欺诈。坏消息是,它将80%的非欺诈归类为欺诈。” 请注意,他们计算的11%仅略高于10%的基本费率。在标记的案例中,欺诈率仅比基本率高10%的机器学习模型非常糟糕。
累计

Answers:


41

我相信您和您的同事是正确的。Statistics.com的思路正确,但犯了一个简单的错误。在90项“正常”索赔中,我们希望其中20%被错误地分类为欺诈,而不是80%。90的20%是18,导致9个正确识别的索赔和18个错误的索赔,比率为1/3,恰好是贝叶斯规则得出的结果。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.