我具有用于解决分类问题的三个功能。最初,这些功能产生布尔值,因此我可以通过查看正向分类和负向分类重叠多少来评估其冗余度。现在,我扩展了功能以生成实际值(分数),并且我想再次分析其冗余度,但是我完全不知道该怎么做。谁能为我提供有关如何实现此目标的指示或想法?
我知道这个问题很模糊,这是因为我对统计数据没有很强的掌握。因此,如果您对我没有答案,也许您有一些问题可以帮助我更好地理解自己。
编辑:我目前正在浏览有关该主题的维基百科,我感觉我想要的是相关系数,但是我仍然不确定这是否是正确的方法,以及许多可用系数中的哪个合适。
编辑2:在布尔型情况下,我首先为每个功能创建了真实的样本集。那么,两个特征之间的相关性就是这些集合的交集大小超过这些集合的并集大小。如果此值为1,则它们是完全冗余的,因为始终相同。如果为0,则它们永远不会相同。
如果您提供了有关如何在布尔型情况下定义冗余以及在连续情况下期望得到什么样的结果的示例,则将有所帮助
—
mpiktas 2011年
@mpiktas:编辑我的问题以回应您的评论。
—
比约恩博动