为什么没人使用贝叶斯多项式朴素贝叶斯分类器?


15

因此,在(无监督的)文本建模中,潜在狄利克雷分配(LDA)是概率潜在语义分析(PLSA)的贝叶斯版本。本质上,LDA = PLSA + Dirichlet优先于其参数。我的理解是,LDA现在是参考算法,并以各种程序包实现,而PLSA不再使用。

但是在(监督)文本分类中,我们可以对多项式朴素贝叶斯分类器执行完全相同的操作,并将Dirichlet放在参数之前。但是我认为我从未见过有人这样做,并且多项朴素贝叶斯的“点估计”版本似乎是大多数软件包中实现的版本。有什么理由吗?

Answers:


7

是一篇很好的论文,解决了多项朴素贝叶斯(MNB)分类器的一些“系统”缺陷。这个想法是,您可以通过一些调整来提高MNB的性能。他们确实提到使用(统一)Dirichlet先验。

总的来说,如果您对MNB感兴趣,但您还没有阅读本文,我强烈建议您阅读。

我还发现同一个人的随笔硕士论文,但我自己尚未阅读。您可以签出。


第二个链接已死-可能dspace.mit.edu/handle/1721.1/7074是最新版本
beldaz

5

我怀疑大多数NB实现都可以通过Laplace校正来估计条件概率,该校正为贝叶斯NB分类器(具有特定的Dirichlet优先级)提供了MAP解决方案。正如@Zhubarb(+1)指出的那样,贝叶斯分类器的贝叶斯处理方法已经得到了推导和实施(Rennie的论文/论文值得一读)。但是,NB的独立性假设几乎总是错误的,在这种情况下,使模型更加强烈地依赖该假设(通过完整的贝叶斯处理)可能不是一件好事。


0

我不相信您所描述的是真的。LDA和MNB的概率模型是不同的。

两者之间的主要区别在于,在LDA的生成模型中,绘制单词时,首先选择该单词的主题,然后从该主题分布中选择一个单词。现在,文档中的每个单词都可以来自不同的主题。

在MNB的生成模型中,为文档分配一个类别,并且该文档中的所有单词均来自该类别的(相同)分布。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.