什么时候距离协方差不如线性协方差合适?


21

刚刚(模糊地)向我介绍了Brownian /距离协方差/相关性。在测试依赖性时,它在许多非线性情况下似乎特别有用。但是,尽管协方差/相关经常用于非线性/混沌数据,但它似乎并不经常使用。

这使我认为距离协方差可能存在一些缺点。那么它们是什么?为什么每个人都不总是使用距离协方差?


6
作为参考,我创建了一个距离相关版本的的相关性图上维基百科
naught101

我读到您正在使用dcov比较非线性时间序列并将其与权重合并。距离相关性?我正在尝试这样做,但是我不确定将权重向量引入距离相关公式是否正确。
user3757561 2014年

不,对不起@ user3757561,我只是尝试使用距离相关性来代替相关性,然后根据该值创建权重。但是我还是没有使用它……
naught101

Answers:


18

通过阅读下面列出的参考文献,我试图根据我的印象收集一些关于距离协方差的评论。但是,我不认为自己是该主题的专家。欢迎提出意见,更正,建议等。

根据原始问题的要求,这些评论(强烈)偏向于潜在的弊端

如我所见,潜在的缺点如下:

  1. 该方法是新的。我的猜测是,这是目前缺乏人气的最大因素。概述距离协方差的论文始于2000年代中期,直到今天。上面引用的论文是最受关注的(炒作?),不到三年。相反,关于相关性和类似相关性度量的理论和结果已经有一百多年的工作了。
  2. 基本概念更具挑战性。在操作层面上,皮尔森的产品与时刻的相关性可以很容易地向没有结石背景的大学新生解释。可以布置一个简单的“算法”视点,并且易于描述几何直觉。相反,在距离协方差的情况下,甚至成对欧几里德距离的乘积之和的概念也要困难得多,并且关于随机过程的协方差的概念远远超出了可以合理地向此类受众解释的范围。 。
  3. 在计算上要求更高。用于计算测试统计量的基本算法是样本大小为,而标准相关性度量为。对于小样本而言,这并不是什么大问题,但是对于大样本而言,这变得更为重要。O(n2)O(n)
  4. 检验统计量不是自由分布的,甚至是渐近分布的。人们可能希望,对于一个与所有替代方案都一致的检验统计量,该分布(至少渐近地)可能独立于零假设下的和的基础分布。距离协方差不是这种情况,因为零点下的分布取决于和的基础分布,即使样本大小趋于无穷大。这真实的,分布均匀有界分布,这允许计算保守临界值。XYXYχ12
  5. 距离相关是一对一变换。在二元正常情况下|ρ|。这并不是真正的缺点,甚至可以视为一种优势。但是,如果人们接受数据的二元正态逼近,这在实践中可能很常见,那么使用距离相关代替标准程序几乎得不到任何收益。
  6. 功率特性未知。与所有替代方案保持一致基本上可以保证距离协方差对某些替代方案的功效必须非常低。在许多情况下,人们愿意放弃普遍性,以获得针对特定利益选择的额外权力。原始论文显示了一些示例,在这些示例中,它们声称相对于标准相关性度量具有较高的功效,但我认为,回到上面的(1.),它相对于替代品的行为尚不十分清楚。

重申一下,这个答案可能是相当否定的。但这不是目的。有一些关于距离协方差的非常美丽和有趣的想法,它的相对新颖性也为更充分地理解它开辟了研究途径。

参考文献

  1. GJ Szekely和ML Rizzo(2009),《布朗距离协方差》安。应用 统计员。,卷 3号 4,1236–1265。
  2. GJ Szekely,ML Rizzo和NK Bakirov(2007),《通过距离的相关性测量和测试独立性》安。统计员。,卷 35,2769–2794。
  3. R. Lyons(2012),度量空间中的距离协方差Ann。Probab。(出现)。

很好的答案,谢谢。其中有些有点让我
烦恼

1
另请参见摘要和讨论:“布朗距离协方差”统计期刊俱乐部,36-825本杰明·考利和朱塞佩·芬奇,2014年10月27日stat.cmu.edu/~ryantibs/journalclub/dcov.pdf
费利佩·G·涅文斯基

2
当两个随机变量都是单变量时,可以在时间中计算距离相关性,例如,请参阅tandfonline.com/doi/abs/10.1080/00401706.2015.1054435O(nlogn)
艾琳·乔杜里

3

我很可能会遗漏一些东西,但是仅仅对两个变量之间的非线性相关性进行量化似乎并没有太大的收获。它不会告诉您关系的形状。它不会给您任何手段来从另一个变量中预测一个变量。以此类推,在进行探索性数据分析时,有时会使用黄土曲线(局部加权散点图更平滑)作为第一步,以查看是否最好用直线,二次方,三次等对数据进行建模。本身并不是一个非常有用的预测工具。这只是找到描述双变量形状的可行方程式的第一近似值。与黄土(或距离协方差结果)不同,该方程式可以构成验证模型的基础。


就我而言,它确实有回报。我没有使用dcov()来预测任何事情,而是在一个集合中比较多个非线性时间序列,并根据它们的依赖性将它们与权重相结合。在这种情况下,dcov()具有潜在的巨大好处。
naught101 2012年

@ naught101您可以输入一些矿石信息吗?-当您说-'combine'时?就基于非线性相关性的加权而言,这听起来很有趣。您是将时间序列归为一组吗?同样,在这种情况下,高权重和低权重又强调什么?
灵车


1
另外,如果您知道相关性的一般形式(例如多项式方程式),则可以使用确定系数来量化相关性的强度,例如,参见《针对多项式回归计算调整后的R2
Felipe G. Nievinski
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.