实际使用哪些健壮的相关方法?


18

我计划进行一次仿真研究,在其中比较几种具有不同分布(偏斜,离群值等)的鲁棒相关技术的性能。对于稳健,我的意思是对a)偏斜分布,b)离群值和c)重尾稳健的理想情况。

除了将Pearson相关性作为基准外,我还想包括以下更可靠的措施:

  • 斯皮尔曼的ρ
  • 折弯百分比(Wilcox,1994,[1])
  • 最小体积椭圆形,最小协方差行列式(cov.mve/ cov.mcdcor=TRUE选项)
  • 温莎相关

当然,还有更多选择(特别是如果您还包括强大的回归技术),但是我想将自己局限于使用最多/很有希望的方法。

现在,我有三个问题(可以只回答一个问题):

  1. 我可以/应该包括其他健壮的相关方法吗?
  2. 您的领域实际上 使用了 哪些强大的相关技术(谈到心理研究:除了Spearman的,我从未在技术论文之外见过任何健壮的关联技术。自举技术越来越受欢迎,但到目前为止,其他健壮的统计数据或多或少不存在)。ρ
  3. 您是否已经知道多种相关技术的系统比较?

也可以随意评论上面给出的方法列表。


[1] Wilcox,RR(1994)。百分比弯曲相关系数。心理疗法,59,601-616。

Answers:


3

从心理学的角度来看,皮尔森和斯皮尔曼的关联确实是最常见的。但是,我认为许多心理学研究人员在进行Pearson的相关运算之前会对构成变量进行各种数据处理程序。我想象任何健壮性检查都应考虑以下因素的影响:

  • 一个或两个变量的转换,以使变量近似于正态分布
  • 根据统计规则或观察到的问题知识调整或删除异常值

1

我会向您推荐这篇我之前在此处发表的优秀文章,发表于2011 年《科学》杂志提出了一种新的健壮措施,并与其他措施进行了详尽而出色的比较。此外,所有措施都经过了健壮性测试。请注意,此新措施还能够识别数据中的多个功能关系,也可以识别非功能关系。


大!我将对此进行非常仔细的研究。看起来非常有前途……
Felix S

1
你能把文章的名字放好吗?好像消失了!
Creatron

2
检测大数据集中的新型关联
Miroslav Sabo 2013年

6
那篇文章受到了很多批评。它似乎被夸大了。大量的媒体和公关工作,但似乎在诸如▄▀之类的琐碎事例上却失败了,它被认为是“线性的”。IIRC的研究也不公平,因为他们使用排名作为自己的方法。但是相比起皮尔逊而不是斯皮尔曼相关。
Anony-Mousse-恢复莫妮卡2014年



1

一些可靠的相关度量是:

  1. 斯皮尔曼等级相关系数

  2. 信号(Blomqvist)相关系数

  3. 肯德尔的头

  4. 布拉德利的绝对相关系数

  5. Shevlyakov相关系数

参考文献:

•Blomqvist,N.(1950)“关于两个随机变量之间的依存性的度量”,《数学统计年鉴》,21(4):593-600。•Bradley,C.(1985年),“绝对相关性”,《数学公报》,69(447):12-17。•Shevlyakov,GL(1997年)“关于相关系数的稳健估计”,数学科学学报,83(3):434-438。•Spearman,C.(1904年),“两件事之间的关联的证明和度量”,《美国心理学杂志》,15:88-93。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.