我正在为自己的Naive Bayes bag o'word模型制作原型,而我对计算特征概率有疑问。
假设我有两个类,我将只使用垃圾邮件,而不会使用垃圾邮件,因为这是每个人都使用的。让我们以“伟哥”一词为例。我的培训集中有10封电子邮件,5封垃圾邮件和5封非垃圾邮件。“ viagra”出现在所有5个垃圾邮件文档中。在其中一份培训文档中,它出现了3次(这是我的问题是关于的),因此,垃圾邮件总数达到了7次。在非垃圾邮件训练集中,它出现1次。
如果我想估计p(伟哥|垃圾邮件),是否简单:
p(伟哥|垃圾邮件)= 5个包含伟哥的垃圾邮件/ 5个垃圾邮件总计= 1
换句话说,一个文件提到伟哥3次而不是一次的事实真的没有关系吗?
编辑:这是一篇博客文章,作者使用了我刚才列出的方法:http : //ebiquity.umbc.edu/blogger/2010/12/07/naive-bayes-classifier-in-50-lines/
这是一篇博客文章,作者说:p(viagra | spam)= 7个伟哥垃圾邮件提及次数/ 8个总提及次数 http://www.nils-haldenwang.de/computer-science/machine-learning/how-to-apply朴素贝叶斯分类器到文档分类问题
然后,下面的答案之一应该是:p(viagra | spam)=垃圾邮件中提及7个伟哥/垃圾邮件中的术语总数
任何人都可以链接到对此有意见的来源吗?