相互信息与相关性


Answers:


77

让我们考虑一个(线性)相关性的基本概念,即协方差(即Pearson的相关系数“未标准化”)。对于具有概率质量函数p x p y 和联合pmf p x y )的两个离散随机变量Y,我们有XÿpXpÿp(x,y)

Cov(X,Y)=E(XY)E(X)E(Y)=x,yp(x,y)xy(xp(x)x)(yp(y)y)

Cov(X,Y)=x,y[p(x,y)p(x)p(y)]xÿ

两者之间的相互信息定义为

一世Xÿ=ËlnpXÿpXpÿ=XÿpXÿ[lnpXÿ-lnpXpÿ]

比较两者:每个都包含“两个rv的距离与独立性的距离”的逐点“度量”,因为它由关节pmf与边际pmf的乘积之间的距离表示:它具有水平差异,而I X Y 具有对数差异。 冠状病毒Xÿ一世Xÿ

这些措施有什么作用?在它们创建两个随机变量乘积的加权和。在I X Y )中,它们创建其联合概率的加权和。冠状病毒Xÿ一世Xÿ

因此,对于我们研究了非独立性对其乘积的影响,而在I X Y )中,我们研究了非独立性对其联合概率分布的影响。 冠状病毒Xÿ一世Xÿ

相反,是距离独立性的对数度量的平均值,而Cov X Y 是距离独立性的水平度量的加权值,由两个rv的乘积加权。一世Xÿ冠状病毒Xÿ

因此,这两个不是对立的,而是互补的,描述了两个随机变量之间关联的不同方面。人们可能会说互助信息“不关心”关联是否为线性关系,而协方差可能为零,并且变量仍可能是随机相关的。另一方面,可以直接从数据样本计算协方差,而无需实际知道所涉及的概率分布(因为它是一个涉及分布矩的表达式),而互信息则需要知道分布,如果有,则估计与协方差估计相比,未知数是一项更为微妙和不确定的工作。


@ Alecos Papadopoulos; 感谢您的全面答复。
SaZa 2014年

1
我在问自己同样的问题,但我没有完全理解答案。// @ Alecos Papadopoulos:我了解测得的依赖度是不一样的,好吧。因此,对于X和Y之间的哪种关系,我们应该首选互信息I(X,Y)而不是Cov(X,Y)?最近我有一个奇怪的例子,其中Y几乎线性依赖于X(在散点图中几乎是直线),Corr(X,Y)等于0.87,I(X,Y)等于0.45。因此,显然在某些情况下应该选择一个指标而不是另一个指标吗?感谢您的帮助!
Gandhi91 2014年

@ Gandhi91 在此特定情况下,H X 的熵是多少?XHX
Alecos Papadopoulos 2014年

这是一个非常清楚的答案。我想知道您是否有一个现成的示例,其中cov为0,而pmi不是。
thang

@thang。并不是的。人们应该能够找到一个示例,其中协方差为零,并且同时具有联合分布,以计算互信息(并且联合分布将不是边际的乘积,因为我们希望变量不为独立)。
Alecos Papadopoulos

7

互信息是两个概率分布之间的距离。相关性是两个随机变量之间的线性距离。

在为一组符号定义的任何两个概率之间,您可以具有相互信息,而在不能自然映射到R ^ N空间的符号之间,则不能具有相关性。

另一方面,互信息不会对变量的某些属性进行假设。如果您使用的是平滑变量,则相关性可能会告诉您更多有关变量的信息。例如,如果他们的关系是单调的。

如果您有一些先验信息,则可以从一个切换到另一个。在病历中,您可以将符号“具有基因型A”映射为1,将“不具有基因型A”映射为0和1值,并查看其是否与某种疾病或另一种疾病相关。同样,您可以采用一个连续的变量(例如:薪水),将其转换为离散的类别,然后计算这些类别与另一组符号之间的相互信息。


相关不是线性函数。是否应该说相关性是随机变量之间线性关系的量度?
马修·冈恩

1
我认为:“您可能在为一组符号定义的任何两个概率之间具有相互信息,而在不能自然映射到R ^ N空间的符号之间没有相关性”可能是关键。如果您没有一个完整的随机变量,Corr就没有意义。但是,即使只有pdf和sigma(空格),pmi还是有意义的。这就是为什么在许多没有意义的RV应用(例如NLP)中使用pmi的原因。
thang

6

这是一个例子。

在这两个图中,相关系数为零。但是,即使相关系数为零,我们也可以获得较高的共享共有信息。

在第一个图中,我看到如果我有一个高或低的X值,那么我很可能会得到一个高的Y值。但是,如果X的值适中,那么我的Y值就会低。包含有关X和Y共享的相互信息的信息。在第二个图中,X告诉我关于Y的任何信息。

相互信息与相关性


4

尽管它们都是度量特征之间关系的一种方法,但MI比相关系数(CE)更笼统,因为CE仅能够考虑线性关系,但MI也可以处理非线性关系。


这不是真的。皮尔逊相关系数假设两个随机变量的正态性和线性,而非参数斯皮尔曼变量则不然。假定两个rv之间只有单调性。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.