我在这里看到了另一个主题,但我认为答案不能满足实际问题。我一直读到的是,朴素贝叶斯是使用对数赔率演示的线性分类器(例如:here)(它绘制了线性决策边界)。
但是,我模拟了两个高斯云并拟合了决策边界,并得到了这样的结果(r中的库e1071,使用naiveBayes())
如我们所见,决策边界是非线性的。是否要说参数(条件概率)是对数空间中的线性组合,而不是说分类器本身是线性地分离数据?
我在这里看到了另一个主题,但我认为答案不能满足实际问题。我一直读到的是,朴素贝叶斯是使用对数赔率演示的线性分类器(例如:here)(它绘制了线性决策边界)。
但是,我模拟了两个高斯云并拟合了决策边界,并得到了这样的结果(r中的库e1071,使用naiveBayes())
如我们所见,决策边界是非线性的。是否要说参数(条件概率)是对数空间中的线性组合,而不是说分类器本身是线性地分离数据?
Answers:
我想补充一点:进行某些混淆的原因在于执行“朴素贝叶斯分类”的含义。
在“高斯判别分析(GDA)”的广泛主题下,有几种技术:QDA,LDA,GNB和DLDA(二次DA,线性DA,高斯朴素贝叶斯,对角LDA)。[更新] LDA和DLDA在给定预测变量的空间内应为线性。(例如参见DA的Murphy 4.2,第101页,NB的第82页。注意:GNB不一定是线性的。离散NB(在引擎盖下使用多项式分布)是线性的。您也可以检出Duda ,Hart&Stork第2.6节)。正如其他答案所指出的那样,QDA是二次的(我认为这是图形中正在发生的事情-参见下文)。
尽管e1071的文档声称它假定类条件独立性(即GNB),但我怀疑它实际上在执行QDA。有人将“朴素贝叶斯”(做出独立性假设)与“简单贝叶斯分类规则”混为一谈。所有的GDA方法都源自于后者。但只有GNB和DLDA使用前者。
一个大警告,我还没有阅读e1071源代码来确认它在做什么。