在朴素贝叶斯(Naive Bayes)中,当我们在测试集中有未知单词时,为什么还要打扰Laplace平滑?
我今天正在阅读朴素贝叶斯分类法。我在Parameter Estimation的标题下加上了1 smoothing进行了阅读: 令指代一个类(例如正或负),而令指代一个标记或单词。cccwww 用于最大似然估计是P(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts of words in class c.\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}. 这种估计可能会产生问题,因为它会使单词未知的文档的概率为。解决此问题的常用方法是使用拉普拉斯平滑。P(w|c)P(w|c)P(w|c)000 令V为训练集中的单词集合,向单词集合添加一个新元素(未知)。UNKUNKUNK 定义P(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=\frac{\text{count}(w,c) +1}{\text{count}(c) + |V| + 1}, 其中表示词汇表(训练集中的单词)。VVV 特别是,任何未知单词的概率都为 1count(c)+|V|+1.1count(c)+|V|+1.\frac{1}{\text{count}(c) + |V| + 1}. 我的问题是:为什么我们要完全不理会Laplace平滑处理?如果我们在测试集中遇到的这些未知单词的概率显然几乎为零,即,将它们包括在模型中有什么意义?为什么不忽略它们并删除它们呢? …