使用互信息估计连续变量和分类变量之间的相关性


13

至于标题,其思想是在MI前后使用互信息来估计连续变量和分类变量之间的“相关性”(定义为“当我知道B时我对A有多少了解”)。稍后,我会告诉您我的想法,但在我建议您阅读CrossValidated上的其他问题/答案之前,因为它包含一些有用的信息。

现在,由于我们无法对分类变量进行积分,因此需要离散化连续变量。在R(这是我进行大多数分析时所用的语言)中,可以很容易地做到这一点。我更喜欢使用该cut函数,因为它也为值取别名,但也可以使用其他选项。问题的关键是,人们必须决定先验可以做任何离散化之前“箱”(离散状态)的数量。

但是,主要问题是另一个问题:MI的范围是0到∞,因为它是未标准化的度量,单位是位。这使得很难将其用作相关系数。这可以通过全局相关系数部分地解决,在这里和之后的GCC是MI的标准版本。GCC定义如下:

在此处输入图片说明

参考:该公式摘自AndreiaDionísio,Rui Menezes和Diana Mendes,2010年,《互助信息作为分析股市全球化的非线性工具》。

GCC的范围是0到1,因此可以轻松地用来估计两个变量之间的相关性。问题解决了吧?好吧,有点。因为所有这些过程在很大程度上取决于我们决定在离散化过程中使用的“箱”的数量。这是我的实验结果:

在此处输入图片说明

在y轴上有GCC,在x轴上有我决定用于离散化的“ bin”数。这两行指的是我对两个不同(尽管非常相似)的数据集进行的两个不同的分析。

在我看来,一般而言,尤其是GCC的MI用法仍存在争议。但是,这种混乱可能是我一方错误的结果。无论哪种情况,我都很想听听您对此事的看法(此外,您是否可以使用其他方法来估计分类变量和连续变量之间的相关性?)。


2
我无法评论针对连续变量和离散变量的联合分布计算互信息的问题,但是我建议如果您计算互信息的归一化变体,则应消除合并的影响。通常,通过熵之和或联合熵将其归一化。熵的总和要好一些,因为。H(Xi,Xj)H(Xi)+H(Xj)
杰西卡·柯林斯

顺便说一句,这里是代码,以防万一有人想尝试装箱方法。
zkurtz 2014年

4
您不是在估计“相关性”。您正在估计相互信息。一个不估计另一个;它们是对更一般的关联概念的不同度量。
zkurtz 2014年

这篇文章的一个更好的标题也许是“如何最好地对连续变量进行分类以估计其与分类变量的互信息?”
zkurtz 2014年

是一种有趣的非分箱方法。不幸的是我找不到R实现。
zkurtz 2014年

Answers:


5

有一种更简单,更好的方法来解决此问题。类别变量实际上只是一组指标变量。测量理论的基本思想是,这样的变量对于类别的重新标记是不变的,因此在对另一个变量之间的关系(例如“相关性”)进行任何度量时,使用类别的数字标记是没有意义的。 。因此,对连续变量和分类变量之间关系的度量应完全基于从后者衍生的指标变量。

假设您想要度量两个变量之间的“相关性”,那么查看连续随机变量与从ta分类变量派生的指标随机变量之间的相关性是有意义的。让我们有:XIϕP(I=1)

Cov(I,X)=E(IX)E(I)E(X)=ϕ[E(X|I=1)E(X)],

这使:

Corr(I,X)=ϕ1ϕE(X|I=1)E(X)S(X).

因此,连续随机变量与指标随机变量之间的相关性是指标概率和期望值的标准化增益(基于一个相当简单的函数)。注意,该相关不需要对连续随机变量进行任何离散化。XIϕXI=1


对于范围为的一般分类变量您只需扩展此思想即可为分类变量的每个结果提供一个相关值向量。对于任何结果我们可以定义相应的指标,我们有:C1,...,mC=kIkI(C=k)

Corr(Ik,X)=ϕk1ϕkE(X|C=k)E(X)S(X).

然后,我们可以定义作为相关值的向量分类随机变量的每个类别。实际上,这是谈论分类随机变量的“相关性”的唯一意义。Corr(C,X)(Corr(I1,X),...,Corr(Im,X))

注意:证明是微不足道的,因此分类随机变量的相关向量受到此约束。这意味着给定的概率向量已知分类随机变量以及的标准偏差,您可以从其任意个元素中得出向量。)kCov(Ik,X)=0Xm1


上面的说明是针对真实的相关值的,但是显然必须在给定的分析中估计这些值。从样本数据估计指标的相关性很简单,并且可以通过为每个部分替换适当的估计值来完成。(如果愿意,可以使用更高级的估计方法。)给定样本数据我们可以将相关方程的各部分估计为:(x1,c1),...,(xn,cn)

ϕ^k1ni=1nI(ci=k).

E^(X)x¯1ni=1nxi.

E^(X|C=k)x¯k1ni=1nxiI(ci=k)/ϕ^k.

S^(X)sX1n1i=1n(xix¯)2.

替换这些估计将产生相关矢量的基本估计。如果您在上具有参数信息,则可以通过最大似然法或其他某种方法直接估计相关矢量。X

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.