测量非线性相关性


11

两个随机变量之间的协方差定义了一种衡量它们彼此线性相关程度的方法。但是如果联合分布是圆形的怎么办?当然分布中有结构。如何提取此结构?

Answers:


8

通过“圆形”,我知道分布集中在圆形区域,如pdf的轮廓图所示。

圆形分布的等高线图

如果存在这样的结构,即使是部分存在,识别和测量它的自然方法就是围绕其中心循环平均分布。(从直觉上讲,这意味着对于每个可能的半径我们应该在所有方向上均等地分布距中心的距离的概率。)将变量表示为,中心必须位于第一刻。要进行平均,可以方便地定义径向分布函数rr(X,Y)(μX,μY)

F(ρ)=Pr[(XμX)2+(YμY)2ρ2],ρ0;
F(ρ)=0,ρ<0.

这捕获了位于距离和中心的之间的总概率。到散出去在所有方向上,让是具有CDF的随机变量和上的均匀随机变量独立的。二元随机变量是圆形平均的。(这确实满足了我们的直觉要求,即“圆平均值”,因为(a)通过构造具有正确的径向分布,即,并且(b)从中心的所有方向(0ρRFΘ[0,2π]R(Ξ,H)=(Rcos(Θ)+μX,Rsin(Θ)+μY)(X,Y)FΘ)也有可能。)

此时,您有许多选择:剩下的就是比较与。可能性包括一个的距离相对熵(具有无数的相关距离度量沿着:对称发散,海林格距离,互信息,等等)。比较表明,当与 “接近”时,它可能具有圆形结构。在这种情况下,可以从性质“提取”结构。例如,测量的中心位置(例如其平均值或中位数)可以确定的分布的“半径”(X,Y)(Ξ,H)Lp(X,Y)(Ξ,H)FF(X,Y)和的标准偏差(或其他比例尺)表示“展开”在其中心位置的径向方向上的。F(X,Y)(μX,μY)

采样从分配,用数据,圆度的合理的测试是估计中心位置照常(与装置或中位数),并由此转换的每个值转换为相对于该估计中心的极坐标。将半径的标准偏差(或IQR)与其平均值(或中位数)进行比较。对于非圆形分布,该比例将很大;对于循环分布,它应该相对较小。(如果您对基础分布有特定的模型,则可以计算出径向统计量的采样分布,并以此进行显着性检验。)另外,请测试角度坐标在区间中的均匀性(xi,yi),1in(xi,yi)(ri,θi)[0,2π)。对于圆形分布(以及其他一些分布),它将大致均匀;不均匀性表示偏离圆度。


1
谢谢!尽管还不是很清楚,但这确实使我有所了解。您能否推荐一些阅读内容来解决这类分布问题?我只接触过高斯人和其他标准发行版。另一个问题,这与原子的径向分布函数有关吗?
Infinity

1
@Infinity让我知道哪个部分不清楚,所以我可以尝试修复它。我不知道在哪里讨论这种分布,但是可以在有关“圆形分布”的文献中找到相关的分析。潜在的数学思想确实与原子轨道理论有些微弱的联系。相关概念包括在球坐标系中Schrodinger方程的可分离性,通过平均构造紧凑Lie群的Haar测度以及通过重叠积分比较轨道。
whuber

谢谢。我对概率和统计资料非常陌生,可能是因为这个原因。我真的不明白“对分布的圆心进行平均”是什么意思,我认为这意味着对所有圆进行平均,从而只剩下一个圆,圆的中心为和半径有点像线性回归线拟合。那是对的吗?(μX,μY)ρ
Infinity

我的另一个疑问是,分布函数似乎描述了一个光盘,但是该图形(以及我所想到的)是一个圆环。随机变量 以极性形式描述平均圆。对不起,我不清楚接下来会发生什么。我知道我们使用某种距离度量来比较这两个分布,但是为什么特殊的,以及它如何帮助我无法推理。如果问题看起来太愚蠢,我感到抱歉。F(ρ)(Ξ,H)(Ξ,H)
Infinity

1
@Infinity我添加了一些澄清的说明。您不会平均出圈数;相反,您需要平均(或“涂抹”)每个圆上的所有概率因此无论您从什么开始,它最终看起来都像我的照片(带有圆形轮廓)。如果原始分布确实是圆形的,则此平均不会改变它。因此,将分布与其平均版本进行比较可以告诉您,从一开始圆形就离圆形有多远。
whuber

5

互信息具有与协方差类似的性质。协方差是一个数字,独立变量为0,线性相关变量为非零。特别是,如果两个变量相同,则协方差等于方差(通常为正数)。协方差的一个问题是,即使两个变量不是独立的,只要相关性是非线性的,也可能为零。

互信息(MI)是一个非负数。当且仅当两个变量在统计上独立时,它才为零。该属性比协方差的属性更通用,并且涵盖了所有依赖关系,包括非线性依赖关系。

如果两个变量相同,则MI等于变量的熵(再次,通常为正数)。如果变量不同且不确定,则MI小于熵。从这个意义上讲,两个变量的MI介于0和H(熵)之间,仅在独立的情况下为0,在确定的情况下则为H。

与协方差的一个区别是,依赖性的“符号”被忽略。例如,但是。Cov(X,X)=Cov(X,X)=Var(X)MI(X,X)=MI(X,X)=H(X)


4
您能否进一步解释这个概念如何为问题提供答案?
一站式

3

请查看以下来自科学的文章-它准确地说明了您的观点:

David N. Reshef等人在大数据集中检测新型关联。

从摘要:

识别大型数据集中的变量对之间的有趣关系变得越来越重要。在这里,我们提出了对两个变量关系的依赖度量:最大信息系数(MIC)。MIC捕获了功能性和非功能性的广泛关联,并且对于功能性关系,其得分大致等于数据相对于回归函数的确定系数(R ^ 2)。MIC属于一类最大的基于信息的最大非参数探索(MINE)统计信息,用于识别和分类关系。我们将MIC和MINE应用于全球健康,基因表达,大联盟棒球和人类肠道菌群的数据集,并确定已知和新颖的关系。

您可以在此处找到补充材料:http : //www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1

作者甚至提供了一个免费工具,其中包含可与R和Python一起使用的新颖方法:http : //www.exploredata.net/

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.