朴素贝叶斯与多项式朴素贝叶斯之间的区别


29

我之前已经处理过朴素贝叶斯分类器。我最近一直在阅读有关朴素贝叶斯的多项式

后验概率=(现有*似然)/(证据)

我发现朴素贝叶斯与多项式朴素贝叶斯之间的唯一主要区别(在对这些分类器进行编程时)是

多项式朴素贝叶斯计算似然度是单词/令牌(随机变量)的计数,朴素贝叶斯计算似然度如下:

在此处输入图片说明

如果我错了纠正我!


1
您将在以下pdf文件中找到很多信息:cs229.stanford.edu/notes/cs229-notes2.pdf
B_Miner 2012年

Christopher D. Manning,Prabhakar Raghavan和HinrichSchütze。“ Information Retrieval in Information Retrieval。 ” 2009年,有关文本分类和朴素贝叶斯的第13章也很好。
Franck Dernoncourt,2016年

Answers:


43

通用术语朴素贝叶斯是指模型中的强独立性假设,而不是每个要素的特定分布。一个朴素的贝叶斯模型假设它使用的每个功能在给定类的条件下彼此独立。更正式地说,如果要计算在给定类c的情况下观察特征至的概率,那么在朴素贝叶斯假设下,以下条件成立:˚F Ñf1fn

p(f1,...Fñ|C=一世=1个ñpF一世|C

这意味着当我想使用朴素贝叶斯模型对新示例进行分类时,后验概率的处理要简单得多:

pC|F1个FñpCpF1个|CpFñ|C

当然,这些独立性的假设很少是正确的,这可以解释为什么有人将模型称为“白痴贝叶斯”模型,但实际上,朴素贝叶斯模型的表现出人意料地出色,即使在很明显的情况下,独立性的假设是错误的。

到现在为止,我们还没有对每个功能的分布发表任何评论。换句话说,我们未定义。术语“ 朴素贝叶斯贝叶斯”让我们知道每个是一个多项式分布,而不是其他一些分布。这对于可以轻松转换为计数的数据(例如文本中的字数计数)非常有效。p f i | c pF一世|CpF一世|C

您与Naive Bayes分类器一起使用的发行版是Guassian pdf,所以我想您可以称其为Guassian Naive Bayes分类器。

总而言之,朴素贝叶斯分类器是一个通用术语,指的是模型中每个要素的条件独立性,而多项朴素贝叶斯分类器是朴素贝叶斯分类器的特定实例,该朴素贝叶斯分类器为每个要素使用多项式分布。

参考文献:

斯图尔特·罗素(Stuart J. Russell)和彼得·诺维格(Peter Norvig)。2003。《人工智能:一种现代方法》(第2版)。培生教育。参见第 499,用于引用“白痴贝叶斯”以及朴素贝叶斯模型的一般定义及其独立性假设


链接已断开
ssoler 2014年

@ jlund3,感谢您的出色解释。我们如何将分布信息纳入我们的分类器中?我的意思是公式p(c | f1,...,fn)∝p(c)p(f1 | c)... p(fn | c)是基于瓜斯分布与多峰分布而变化的
大卫

感谢您的简要说明,但我推荐的书:上面提到的关于NB和人工智能技术更多的知识太(斯图尔特·J·拉塞尔和彼得·诺维格2003人工智能。一种现代方法(第2版))..
Mirani

多项式分布的计数是非独立的。看到我的问题在这里:datascience.stackexchange.com/questions/32016/...
哈南Shteingart

10

PX一世|CĴ1个一世ñ1个Ĵķ一世ĴPX一世|CĴ1个PX一世|CĴ2

多项式朴素贝叶斯简单地假设所有对的多项式分布,在某些情况下,即对于文档中的字数,这似乎是一个合理的假设。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.