Answers:
通过“圆形”,我知道分布集中在圆形区域,如pdf的轮廓图所示。
如果存在这样的结构,即使是部分存在,识别和测量它的自然方法就是围绕其中心循环平均分布。(从直觉上讲,这意味着对于每个可能的半径我们应该在所有方向上均等地分布距中心的距离的概率。)将变量表示为,中心必须位于第一刻。要进行平均,可以方便地定义径向分布函数
这捕获了位于距离和中心的之间的总概率。到散出去在所有方向上,让是具有CDF的随机变量和上的均匀随机变量独立的。二元随机变量是圆形平均的。(这确实满足了我们的直觉要求,即“圆平均值”,因为(a)通过构造具有正确的径向分布,即,并且(b)从中心的所有方向()也有可能。)
此时,您有许多选择:剩下的就是比较与。可能性包括一个的距离和相对熵(具有无数的相关距离度量沿着:对称发散,海林格距离,互信息,等等)。比较表明,当与 “接近”时,它可能具有圆形结构。在这种情况下,可以从性质“提取”结构。例如,测量的中心位置(例如其平均值或中位数)可以确定的分布的“半径”和的标准偏差(或其他比例尺)表示“展开”在其中心位置的径向方向上的。
当采样从分配,用数据,圆度的合理的测试是估计中心位置照常(与装置或中位数),并由此转换的每个值转换为相对于该估计中心的极坐标。将半径的标准偏差(或IQR)与其平均值(或中位数)进行比较。对于非圆形分布,该比例将很大;对于循环分布,它应该相对较小。(如果您对基础分布有特定的模型,则可以计算出径向统计量的采样分布,并以此进行显着性检验。)另外,请测试角度坐标在区间中的均匀性。对于圆形分布(以及其他一些分布),它将大致均匀;不均匀性表示偏离圆度。
互信息具有与协方差类似的性质。协方差是一个数字,独立变量为0,线性相关变量为非零。特别是,如果两个变量相同,则协方差等于方差(通常为正数)。协方差的一个问题是,即使两个变量不是独立的,只要相关性是非线性的,也可能为零。
互信息(MI)是一个非负数。当且仅当两个变量在统计上独立时,它才为零。该属性比协方差的属性更通用,并且涵盖了所有依赖关系,包括非线性依赖关系。
如果两个变量相同,则MI等于变量的熵(再次,通常为正数)。如果变量不同且不确定,则MI小于熵。从这个意义上讲,两个变量的MI介于0和H(熵)之间,仅在独立的情况下为0,在确定的情况下则为H。
与协方差的一个区别是,依赖性的“符号”被忽略。例如,但是。
请查看以下来自科学的文章-它准确地说明了您的观点:
David N. Reshef等人在大数据集中检测新型关联。
从摘要:
识别大型数据集中的变量对之间的有趣关系变得越来越重要。在这里,我们提出了对两个变量关系的依赖度量:最大信息系数(MIC)。MIC捕获了功能性和非功能性的广泛关联,并且对于功能性关系,其得分大致等于数据相对于回归函数的确定系数(R ^ 2)。MIC属于一类最大的基于信息的最大非参数探索(MINE)统计信息,用于识别和分类关系。我们将MIC和MINE应用于全球健康,基因表达,大联盟棒球和人类肠道菌群的数据集,并确定已知和新颖的关系。
您可以在此处找到补充材料:http : //www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1
作者甚至提供了一个免费工具,其中包含可与R和Python一起使用的新颖方法:http : //www.exploredata.net/