朴素贝叶斯何时比SVM表现更好?


17

在我正在研究的一个小型文本分类问题中,朴素贝叶斯(Naive Bayes)表现出与SVM相似或更高的性能,我感到非常困惑。

我想知道是什么因素决定一种算法胜过另一种算法。是否存在没有必要在SVM上使用朴素贝叶斯的情况?有人可以阐明这一点吗?


1
请点击此链接以获取一个不错且相关的教程
2015年

Answers:


27

对于给定的数据集,哪一个是最好的分类方法,没有唯一的答案。在给定数据集上进行比较研究时,应始终考虑使用不同种类的分类器。给定数据集的属性,您可能会有一些线索可能会偏爱某些方法。但是,如果可能的话,建议您进行所有实验。

朴素贝叶斯分类器(NBC)和支持向量机(SVM)具有不同的选项,包括为每个选项选择内核功能。它们都对参数优化敏感(即,不同的参数选择会显着改变其输出)。因此,如果您的结果显示NBC的性能优于SVM。这仅适用于所选参数。但是,对于其他参数选择,您可能会发现SVM性能更好。

通常,如果数据集的变量满足NBC的独立性假设,并且类重叠的程度较小(即潜在的线性决策边界),则NBC有望达到良好的效果。例如,对于某些数据集,通过使用包装器特征选择进行优化,NBC可能会击败其他分类器。即使达到可比的性能,NBC也将因其高速度而更为理想。

总而言之,如果分类法在一种情况下胜过其他分类法,则我们不应该偏爱任何分类方法,因为它可能在另一种分类法中严重失败。(这在数据挖掘问题中是正常的)。


7
(+1)也称为无免费午餐定理。我并不完全同意参数敏感度比较(单决策树是IMHO最敏感的方法之一),但是我们不应该在此进行讨论:)。
斯特芬

@steffen,感谢您的宝贵意见。有许多不同的方法可以优化模型,我同意我们不能一概而论,认为哪种模型在所有情况下都更敏感。对于特征选择,DT可能不如NBC敏感,但通常情况并非如此。我将编辑答案以考虑您的评论,如果需要,也可以对其进行编辑。非常感谢 :)。
soufanom

3
+1表示参数敏感性。还值得注意的是,支持SVM的许多理论都适用于具有固定内核的模型,因此,一旦您尝试优化超参数(必须仔细进行和完成),许多理论基础就不再适用。
迪克兰有袋博物馆,
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.