分类问题中类可分离性的度量


11

Fisher的线性判别率是衡量线性判别学习者班级可分离性的一个很好的例子。还有其他有用的指标来确定功能集是否在目标变量之间提供了良好的类分离吗?特别是,我有兴趣寻找良好的多变量输入属性以最大程度地实现目标类别的分离,并且最好采用非线性/非参数度量来快速确定它们是否提供良好的可分离性。


我读到有关Karhunen Loeve扩展的信息,它允许使用类信息进行特征提取。此外,PCA也有扩展,例如使用类协方差矩阵的加权平均值而不是全局矩阵。除了这些信息,我也对您问题的可能答案感兴趣。
Zoran

Answers:


1

您可能正在寻找随机森林中的可变重要性度量(VIM)。Boulesteix等人在论文《随机森林方法论概述和强调计算生物学和生物信息学实用指导》中对此进行了简要概述。

Gini VIM的想法是,您可以获得一些统计信息,以了解随机森林使用某个属性作为分割标准的频率。在这里更多地选择信息功能。

置换VIM是基于这样的想法是,RF-分类的错误估计之间进行比较

  • 原始数据集和
  • 人工数据集,其中ONE属性的值已被置换。

对于重要功能,由此产生的误差估计差异将很大。

据我所知,VIM也可用于发现功能之​​间的依赖关系。


0

寻找最佳特征集可能在计算上非常昂贵。可用解决方案的主要类别可以分为两组:要么绑定到特定的分类器(包装器),要么根据某些条件对特征进行简单的排名(过滤器方法)。

根据您的要求(快速/非参数/非线性),您可能需要使用Filter方法的候选对象。还有那些中描述的不少例子文献。例如,信息增益-通过衡量有关类别的信息增益来评估属性的价值;或基于属性和类之间的相关性评估属性值的相关性。

包装方法绑定到分类器,并且可能会为感兴趣的分类器带来一组更好的功能。由于其性质(在每次迭代中进行全面的训练/测试),它们不被认为是快速的或非参数的,但是它们可以处理要素的非线性关系(您的第三个要求)。一个示例是基于SVM的递归特征消除,因此目标是最大化类之间的余量,并且可以处理特征的非线性关系(使用非线性内核)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.