我看过一些非统计学家的谈话,他们似乎在使用互信息而不是回归(或等效/密切相关的统计检验)来重新发明相关度量。
我认为统计学家不采用这种方法是有充分理由的。我的外行人的理解是,熵/互信息的估计量往往有问题且不稳定。因此,我认为功能也是有问题的:他们声称自己没有使用参数测试框架来尝试解决此问题。通常,这种工作不会影响功效计算,甚至不会影响置信度/可信度区间。
但是,采取恶魔的拥护者立场,当数据集非常大时,慢速收敛是否有那么大的意义呢?同样,有时这些方法似乎在某种意义上是“有效的”,即关联性已通过后续研究验证。反对使用互信息来衡量关联的最佳批评是什么?为什么不将其广泛用于统计实践中?
编辑:此外,是否有涵盖这些问题的好论文?
3
MI是两个离散变量之间关联的度量。一般统计中的设置并不是很常见(可能在某些专门的子字段中)。但是在这种情况下,我看到它经常使用。当然,当我遇到在二元离散数据集上使用Pearson相关性的应用人员时,我会向他们指出MI。
—
2013年
另请参见stats.stackexchange.com/questions/1052/…但是,在我看来,此处的讨论已经很好,因此关于重复项的常见问题尚无定论。
—
Nick Cox
进一步的参考文献是Matthew Reimherr和Dan L. Nicolae。2013。关于量化依赖性:制定可解释性措施的框架。统计科学 28:116-130。
—
Nick Cox