如何量化功能冗余?


10

我具有用于解决分类问题的三个功能。最初,这些功能产生布尔值,因此我可以通过查看正向分类和负向分类重叠多少来评估其冗余度。现在,我扩展了功能以生成实际值(分数),并且我想再次分析其冗余度,但是我完全不知道该怎么做。谁能为我提供有关如何实现此目标的指示或想法?

我知道这个问题很模糊,这是因为我对统计数据没有很强的掌握。因此,如果您对我没有答案,也许您有一些问题可以帮助我更好地理解自己。

编辑:我目前正在浏览有关该主题的维基百科,我感觉我想要的是相关系数,但是我仍然不确定这是否是正确的方法,以及许多可用系数中的哪个合适。

编辑2:在布尔型情况下,我首先为每个功能创建了真实的样本集。那么,两个特征之间的相关性就是这些集合的交集大小超过这些集合的并集大小。如果此值为1,则它们是完全冗余的,因为始终相同。如果为0,则它​​们永远不会相同。


如果您提供了有关如何在布尔型情况下定义冗余以及在连续情况下期望得到什么样的结果的示例,则将有所帮助
mpiktas 2011年

@mpiktas:编辑我的问题以回应您的评论。
比约恩博动

Answers:


4

这听起来像是特征选择的问题,如果是这种情况,我想您要计算特征的所有子集与分类输出之间的相互信息。具有最高互信息的子集将是一组功能,其中包含有关记录的最终分类的最多“信息”。

如果只有3个要素,则可以在合理的时间内计算所有可能的子集,如果要素集变大,则必须对此进行近似估算(通常使用贪婪方法:在每个步骤中采用MI最高的要素)。


2
(+1)以获取相互信息。补充说明:a)我建议“信息获取”是互惠信息的特殊情况。b)自动功能选择不仅会删除多余的内容,而且还会删除所有对类别歧视有负面影响的功能。
steffen 2011年

谢谢!这听起来很有希望,我会研究一下。
比约恩博动
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.