为什么朴素贝叶斯分类器最适合0-1损失?


13

朴素贝叶斯分类器是基于最大化类成员资格的后验P C | x 将项分配给类C的分类器,并假定项的特征是独立的。xCP(C|x)

0-1损失是指将任何未分​​类归类为“ 1”的损失,并将任何正确分类为“ 0”的损失。

我经常读(1),“朴素贝叶斯”分类器对于0-1损失是最佳的。为什么会这样呢?

(1)一个示例性来源:贝叶斯分类器和贝叶斯误差


2
您能否为您的陈述提供参考,“ 我经常读到“朴素贝叶斯”分类器最适合0-1损失 ”?就像,您过去可能在哪里阅读过这种声明
Jon

1
编辑,添加了示例源

Answers:


16

实际上,这非常简单:贝叶斯分类器选择发生后验概率最大的类(所谓的最大后验估计)。在0-1不敌功能惩罚分类错误,即它分配的最小损失的具有正确分类的数量最多的解决方案。因此,在两种情况下,我们都在讨论估计模式。回想一下,模式是数据集中最常见的值,或者是最可能的值,因此最大化后验概率和最小化0-1损失都会导致估计模式。

如果需要正式证明,可以在Angela J. Yu的贝叶斯决策理论简介论文中给出:

0-1二进制损失函数具有以下形式:

lx(s^,s)=1δs^s={1ifs^s0otherwise

其中是Kronecker Delta函数。(...)预期损失为:δ

Lx(s^)=slx(s^,s)P(s=sx)=s(1δs^s)P(s=sx)=sP(s=sx)dssδs^sP(s=sx)=1P(s=sx)

通常,对于最大后验估计,这是正确的。因此,如果您知道后验分布,那么假设损失为0-1,则最佳分类规则是采用后验分布的模式,我们称其为最佳贝叶斯分类器。在现实生活中,我们通常不知道后验分布,而是估计它。朴素贝叶斯分类器通过查看经验分布并假设预测变量的独立性来近似最优分类器。因此,朴素的贝叶斯分类器本身并不是最优的,但它近似于最优解。在您的问题中,您似乎混淆了这两件事。


我想我理解:因此,正式证明应类似于Loss(action_1)= 1-P(action_2 | data)<---我们希望将其最小化。最小化这个等于再次最大化正确的类的先验(即最大化P(action_2 | data)。但是,令我困惑的是为什么不是每个分类器在这方面都是最优的-因为这似乎是最基本的要求因此,如果我们始终选择将数据样本分配给具有更高后验概率的类,那么我们是否会自动实现这种最优性?

@TestGuest检查我的编辑以获取正式证明。
蒂姆

这是我所见过的最复杂的形式主义证明:))但是,谢谢,我希望它也对其他人有所帮助。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.