Answers:
本文似乎证明了(我无法理解数学)贝叶斯不仅在要素独立时而且在要素之间的依存关系相似时也是如此:
在本文中,我们对朴素贝叶斯的出色分类性能提出了新颖的解释。我们证明,从本质上讲,依赖性分布;即,节点的局部依赖性如何均匀地或不均匀地分布在每个类中,以及所有节点的局部依赖性如何一致地(支持某种分类)或不一致地(相互取消)一起工作,起着至关重要的作用。因此,无论属性之间的依存关系有多强,如果依存关系在类中平均分布,或者如果依存关系相互抵消,那么朴素贝叶斯仍然是最佳的
大多数机器学习问题都很容易!
例如,请参见John Langford的博客。他真正的意思是说ML使问题变得容易,这对于研究人员是否应该尝试将方法应用到广泛的简单问题还是应对更困难的问题提出了一个问题。但是,副产品是,对于许多问题,数据是线性可分离的(或至少接近),在这种情况下,任何线性分类器都能很好地工作!碰巧的是,原始垃圾邮件过滤纸的作者选择使用Naive Bayes,但是如果他们使用了Perceptron,SVM,Fisher判别分析,Logistic回归,AdaBoost或其他可能会起作用的其他任何东西。
编码算法相对容易,这一事实很有帮助。例如,要对SVM进行编码,您要么需要QP解算器,要么就需要对SMO算法进行编码,这并不是一件容易的事。您当然可以下载libsvm,但是在早期,该选项不可用。但是,还有许多其他简单的算法(包括上面提到的Perceptron)也很容易编写代码(并允许增量更新,如问题所述)。
对于棘手的非线性问题,当然需要可以处理非线性问题的方法。但是,当采用内核方法时,即使这可能是一个相对简单的任务。这样,问题通常变成“如何为我的数据设计有效的内核功能”而不是“我应该使用哪个分类器”。
在分割分类工具中广泛使用朴素贝叶斯分类器后,我的经验与已发表的论文一致,该论文显示,当所有预测变量可用时,NBC的准确性可与线性判别和CART / CHAID媲美。
(通过准确性来预测最可能解决方案的正确率以及校准,这意味着在70%-80%的情况下75%的隶属度估计是正确的。)
我的两分钱是NBC运作得很好,因为:
这就是观察所有变量的时候。使NBC真正摆脱困境的原因是,当一个或多个预测变量缺失或未观察到时,NBC会适当降低。在这种情况下,CART / CHAID和线性判别分析会停滞不前。