我正在尝试将互信息的思想应用于特征选择,如这些讲义(第5页)中所述。
我的平台是Matlab。我从经验数据计算互信息时发现的一个问题是,数字总是向上偏移。我在Matlab Central上找到了大约3〜4个不同的文件来计算MI,当我输入独立的随机变量时,它们都给出了很大的数字(例如> 0.4)。
我不是专家,但是问题似乎是,如果仅使用联合和边际密度来计算MI,则会在过程中引入偏差,因为MI从定义上说是积极的。是否有人对如何准确估计互信息有实用建议?
一个相关的问题是,在实践中,人们实际上如何使用MI选择功能?对我而言,如何得出一个阈值并不明显,因为理论上MI是无界的。还是人们只是按MI对要素进行排名并采用前k个要素?