可以直观地解释用于检测非线性相关性的MIC算法吗?


20

最近,我读了两篇文章。一个是相关性的历史,第二个是称为最大信息系数(MIC)的新方法。我需要您的帮助以了解MIC方法来估算变量之间的非线性相关性。

此外,可以在作者的网站上找到有关在R中使用它的说明(在下载下):

我希望这将是一个讨论和理解此方法的好平台。我有兴趣讨论这种方法背后的一种直觉以及如何扩展该方法,如作者所说。

... ...我们需要将MIC(X,Y)扩展到MIC(X,Y | Z)。我们将想知道需要多少数据才能获得MIC的稳定估计值,离群值有多容易受到影响,这三个-或更高维度的关系将丢失,甚至更多。MIC是向前迈出的重要一步,但还有更多步骤需要采取。


这个问题很有趣,但是我认为这不是可以回答的。您能说得更具体些吗?
mpiktas 2011年

3
“科学”中的文章不是开放获取这一事实将阻碍讨论。
Itamar

7
是其中一位作者发表的论文的副本。

10
简而言之,MIC是对“绘制所有散点图和峰值具有最大白色区域的图”的旧思想的挖掘,因此它主要产生假阳性,具有虚幻的(作者将其隐藏在“仅测试一些随机选择的对”启发式方法的后面),并且设计遗漏了所有三个及更多变量的交互。O(M2)

4
有关MIC的技术详细信息,在线支持材料比文章本身提供的信息更多。
res

Answers:


22

难道不是说这是在我们不确定其统计同行评审的非统计期刊上发表的吗?这个问题由霍夫丁(Hoeffding)在1948年(《数学统计年鉴》(Annals of Mathematical Statistics)19:546)解决,他开发了一种简单的算法,不需要装箱,也不需要多个步骤。《科学》杂志甚至没有提到霍夫丁的工作。包中的R hoeffd函数已经使用了Hmisc很多年。这是一个示例(example(hoeffd)在R中键入):

# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
     x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
  x  y 
x     0   # P-value is very small
y  0   

hoeffd使用Hoeffding方法的相当有效的Fortran实现。他的测试的基本思想是考虑X和Y的联合等级与X的边际等级与Y的边际等级的乘积之间的差,并对其进行适当缩放。

更新资料

D

HmiscD|F(x,y)G(x)H(y)|D


6
(+1)Hoeffding的论文可在线获得。
res

1
好发现。比较《霍夫丁》的表现与《科学》可能值得一提。遗憾的是,多年来忘记了许多50年代(许多领域)的优秀研究。
Itamar

6

MI=H(X)+H(Y)H(X,Y)
H(X)=ip(zi)logp(zi)
H(X,Y)=i,jp(xi,yj)logp(xi,yj)

作者的主要思想是将数据离散化到许多不同的二维网格上,并计算归一化分数,该分数代表每个网格上两个变量的互信息。分数被标准化以确保不同网格之间的公平比较,并且在0(不相关)和1(高相关)之间变化。

R2


3

我发现有两篇很好的文章更清楚地解释了MIC的思想,尤其是这篇文章。这里第二

从这些阅读中可以了解到,您可以通过探索不同的网格组合来放大两个变量之间关系的不同复杂性和比例。这些网格用于将二维空间拆分为单元。通过选择包含有关单元如何划分空间的最多信息的网格,您可以选择MIC。

我想问@mbq,他是否可以扩展他所谓的“绘制所有散点图和峰值具有最大白色区域的图”以及O(M2)的虚幻复杂度。


4
我担心使用分箱的任何统计方法。
Frank Harrell

@FrankHarrell您能否提供参考或一些直觉,其中详细说明了为什么装箱不好?凭直觉,我可以看到您实际上是在通过分箱来丢弃信息,但是为什么有更多原因呢?
Kiran K.

有太多参考资料,不知道从哪里开始。基于分类的统计方法最终无法幸免。任意性是许多问题之一。
Frank Harrell

@FrankHarrell感谢您的评论。我要求提供参考的原因是我是一名博士生,并且正在研究依赖和多元依赖概念,并且希望将来阅读这些论文并在自己的著作中引用它们。如果您能提到一两个突出的词,我相信我能找到您提到的其余词。如果找到好的参考资料,我也会做一些挖掘并在此处发布参考。
Kiran K.

citeulike.org/user/harrelfe/article/13265458开始,然后在biostat.mc.vanderbilt.edu/CatContinuous上查看有关二分法的其他信息。对于不需要任何分类的一般依赖措施,请不要错过citeulike.org/user/harrelfe/article/13264312
Frank Harrell
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.