朴素贝叶斯如何处理连续变量?


14

就我(非常基础)的理解而言,朴素贝叶斯根据训练数据中每个要素的类频率来估计概率。但是,它如何计算连续变量的频率?在进行预测时,如何对可能与训练集中的任何观测值不相同的新观测值进行分类?它使用某种距离测量还是找到1NN?


这是离散和连续朴素贝叶斯之间的并排比较:datascience.stackexchange.com/a/47031/67328
Esmailian

Answers:


10

执行朴素贝叶斯分类(NBC)的方法有很多。NBC中的一种常用技术是将特征(变量)值重新编码为四分位数,以便将小于25%的值分配为1、25至50、2、50至75、3和大于75的a。因此,单个对象将在仓位Q1,Q2,Q3或Q4中存放一个计数。仅在这些分类箱上进行计算。然后,箱计数(概率)基于变量值落在给定箱中的样本数量。例如,如果一组对象的特征X1的值非常高,那么这将导致X1的Q4的仓中有很多仓计数。另一方面,如果另一组对象的特征X1值较低,则这些对象将在特征X1的Q1的仓中存放大量计数。

实际上,这不是一个真正聪明的计算,而是一种将连续值离散化为离散值,然后进行利用的方法。离散化后可以轻松计算出基尼系数和信息增益,以确定哪些功能最有用,即max(Gini)。

但是,请注意,执行NBC的方法很多,而且彼此之间有很大的不同。因此,您只需要在演讲或论文中陈述您实现了哪一个。


2

朴素贝叶斯的核心是英勇的条件假设:

P(xX,C)=P(xC)

绝对不能是离散的。例如,高斯朴素贝叶斯假设每个类别具有不同的均值和方差:密度。xCp(xC=i)=ϕ(μi,σi2)

估算参数的方法有多种,但是通常可以:

  • 对标记的数据使用最大可能性。(在正态分布的情况下,均值和方差的最大似然估计基本上是样本均值和样本方差。)
  • 诸如带有未标记数据的EM算法之类的东西。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.