为什么没人使用贝叶斯多项式朴素贝叶斯分类器？

15

因此，在（无监督的）文本建模中，潜在狄利克雷分配（LDA）是概率潜在语义分析（PLSA）的贝叶斯版本。本质上，LDA = PLSA + Dirichlet优先于其参数。我的理解是，LDA现在是参考算法，并以各种程序包实现，而PLSA不再使用。

但是在（监督）文本分类中，我们可以对多项式朴素贝叶斯分类器执行完全相同的操作，并将Dirichlet放在参数之前。但是我认为我从未见过有人这样做，并且多项朴素贝叶斯的“点估计”版本似乎是大多数软件包中实现的版本。有什么理由吗？

— 平常我
source

7

这是一篇很好的论文，解决了多项朴素贝叶斯（MNB）分类器的一些“系统”缺陷。这个想法是，您可以通过一些调整来提高MNB的性能。他们确实提到使用（统一）Dirichlet先验。

总的来说，如果您对MNB感兴趣，但您还没有阅读本文，我强烈建议您阅读。

我还发现了同一个人的随笔硕士论文，但我自己尚未阅读。您可以签出。

— 朱巴卜
source

第二个链接已死-可能dspace.mit.edu/handle/1721.1/7074是最新版本

— beldaz

5

我怀疑大多数NB实现都可以通过Laplace校正来估计条件概率，该校正为贝叶斯NB分类器（具有特定的Dirichlet优先级）提供了MAP解决方案。正如@Zhubarb（+1）指出的那样，贝叶斯分类器的贝叶斯处理方法已经得到了推导和实施（Rennie的论文/论文值得一读）。但是，NB的独立性假设几乎总是错误的，在这种情况下，使模型更加强烈地依赖该假设（通过完整的贝叶斯处理）可能不是一件好事。

— 迪克兰有袋动物
source

0

我不相信您所描述的是真的。LDA和MNB的概率模型是不同的。

两者之间的主要区别在于，在LDA的生成模型中，绘制单词时，首先选择该单词的主题，然后从该主题分布中选择一个单词。现在，文档中的每个单词都可以来自不同的主题。

在MNB的生成模型中，为文档分配一个类别，并且该文档中的所有单词均来自该类别的（相同）分布。

— 于尔根
source