Answers:
执行朴素贝叶斯分类(NBC)的方法有很多。NBC中的一种常用技术是将特征(变量)值重新编码为四分位数,以便将小于25%的值分配为1、25至50、2、50至75、3和大于75的a。因此,单个对象将在仓位Q1,Q2,Q3或Q4中存放一个计数。仅在这些分类箱上进行计算。然后,箱计数(概率)基于变量值落在给定箱中的样本数量。例如,如果一组对象的特征X1的值非常高,那么这将导致X1的Q4的仓中有很多仓计数。另一方面,如果另一组对象的特征X1值较低,则这些对象将在特征X1的Q1的仓中存放大量计数。
实际上,这不是一个真正聪明的计算,而是一种将连续值离散化为离散值,然后进行利用的方法。离散化后可以轻松计算出基尼系数和信息增益,以确定哪些功能最有用,即max(Gini)。
但是,请注意,执行NBC的方法很多,而且彼此之间有很大的不同。因此,您只需要在演讲或论文中陈述您实现了哪一个。