假设您已经对“朴素贝叶斯分类器”进行了2类“火腿”和“垃圾邮件”的训练(即,它对电子邮件进行了分类)。为了简单起见,我们假定先验概率为50/50。
现在,假设您有一封电子邮件,分类器将其评价为“火腿”,例如和(w1,w2,...,wn)P(Ham|w1,w2,...wn)=.90
P(Spam|w1,w2,..wn)=.10
到目前为止,一切都很好。
现在,假设您还有另一封电子邮件,与上面的电子邮件完全相同,只不过其中有一个单词没有包含在词汇表中。因此,由于该单词的计数为0,所以(w1,w2,...,wn,wn+1)P(Ham|wn+1)=P(Spam|wn+1)=0
突然,并且P(Ham|w1,w2,...wn,wn+1)=P(Ham|w1,w2,...wn)∗P(Ham|wn+1)=0
P(Spam|w1,w2,..wn,wn+1)=P(Spam|w1,w2,...wn)∗P(Spam|wn+1)=0
尽管第一个电子邮件被严格地归为一类,但是由于该最后一个单词的概率为零,因此该第二个电子邮件的分类可能有所不同。
拉普拉斯平滑通过为两个类赋予最后一个词较小的非零概率来解决此问题,因此后验概率不会突然降至零。