皮尔逊相关系数对违反正态性的鲁棒性如何?


20

当在特定人群中进行测量时,某些变量的数据往往是非正常的(例如,患有严重抑郁症的人群中的抑郁水平)。假设Pearson假设为正态性,那么在非正态条件下检验统计量的稳健性如何?

我有一些我想要相关系数的变量,但是其中一些变量的Z偏度在p <.001时很明显(这是相对较小的样本)。我已经尝试了一些转换,但是发行版中的改进充其量只是微不足道的。

我是否必须坚持使用非参数分析?不仅是相关性,还有其他类型的分析?


等一下,Pearson的相关系数假设正常吗?我不认为这样做,并且我一直在非正常数据上使用它。对于某些在非正常情况下更经常发生的事情,它并不是很可靠,但是在很多非正常情况下,我认为使用Pearson的相关系数没有问题。
Douglas Zare 2012年

1
皮尔逊的相关性假设正常是许多统计资料所声称的。我在其他地方听说过,对于Pearson的r,正态性是不必要的假设。当我进行分析时,皮尔逊氏和斯皮尔曼氏都产生相对相似的结果。
始祖鸟

Spearman等级相关系数是应用于非正常等级的Pearson相关系数。我仍然不知道您认为皮尔逊氏需要正态性在什么意义上。如果您在多元正态分布上使用它,也许您可​​以说些额外的话。
道格拉斯·扎里

我只是将其用于简单的双变量相关。我不确定为什么有人声称需要正常性。我所阅读的统计资料文本始终将正常性列为皮尔逊相关性的假设,并建议在存在非正常性的条件下使用Spearman法。
始祖鸟

Answers:


20

简短的回答:非常不强壮。相关性是对线性相关性的一种度量,并且当一个变量不能写为另一个变量的线性函数(并且仍然具有给定的边际分布)时,就不能具有完美的(正或负)相关性。实际上,可能的相关值可能受到严格限制。

问题在于,尽管总体相关性始终1之间,但可达到的确切范围在很大程度上取决于边际分布。快速证明和演示:11

关联的可达到范围

如果具有分布函数ħ和边缘分布函数˚FG ^,存在一些相当不错的上界和下界ħħ - X ÿ ħ X ÿ ħ +X y 称为Fréchet边界。这些是 ħ - X ÿ (X,Y)HFGH

H(x,y)H(x,y)H+(x,y),
(尝试证明这一点;这并不困难。)
H(x,y)=max(F(x)+G(y)1,0)H+(x,y)=min(F(x),G(y)).

边界本身就是分布函数。令具有均匀分布。上限是的分布函数X Ý = ˚F - Û G ^ - Û 和下界的分布函数˚F - - Û G ^ - 1 - ü U(X,Y)=(F(U),G(U))(F(U),G(1U))

现在,使用以下公式该变型的协方差, 我们看到,我们获得的最大和最小相关性时 ħ等于 ħ + ħ - 分别,即,当 ÿ是的(正或负,分别地)单调函数 X

Cov(X,Y)=H(x,y)F(x)G(y)dxdy,
HH+HYX

例子

以下是一些示例(无证据):

  1. XY(X,Y)YX

    Y=μY+σYXμXσX.
    11XY
  2. XYYY=abXabYXY[1/e,1][0.37,1]

  3. XY

    ±1e10.76.

请注意,所有范围都是针对总体相关性的。样本相关性可以轻松扩展到范围之外,尤其是对于小样本(快速示例:样本大小为2)。

估计相关范围

如果您可以从边际分布中进行模拟,则实际上很容易估计相关性的上限和下限。对于上面的最后一个示例,我们可以使用以下R代码:

> n = 10^5      # Sample size: 100,000 observations
> x = rnorm(n)  # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769

如果我们只有实际数据而又不知道边际分布,则仍然可以使用上述方法。只要观察是相关的,变量是相关的就不成问题。但是,它有助于建立许多观察对。

转换数据

YX

您在这里真正要做的是创建一种的依赖度量,该依赖依赖于边际分布。也就是说,您正在创建基于copula的依赖度量。已经存在几种这样的度量,最著名Spearman的  ρKendall的  τ。(如果您真的对依赖项概念感兴趣,那么研究copulas并不是一个坏主意。)

结论

一些最终的想法和建议:仅查看相关性就有一个大问题:它使您停止思考。另一方面,查看散点图通常会使您开始思考。因此,我的主要建议是检查散点图,并尝试显式地建模依赖性。

就是说,如果您需要一个简单的类似相关的度量,则只需使用Spearman的  ρ(以及相关的置信区间和检验)。其范围不受限制。但是要非常注意非单调依赖性。在对相关维基百科的文章有几个漂亮的曲线说明潜在的问题。


1
+1很好的贡献显然解决了与关联相关的几个重复出现的问题。我特别赞赏第一部分结尾处关于停止/开始思考的言论。
ub

非鲁棒性是否会渐近地保持?如果是这样,那么Wiki在说“ [r的简单变换的学生t分布]甚至在观察值不是正态的情况下,只要样本量不是很小的情况下,大约也成立”时,是否正确?
最大

5

这些变量的分布是什么样的(除了偏斜之外)?如果唯一的非正态性是偏度,则必须进行某种转换。但是,如果这些变量有很多混淆,则没有任何变换可以使它们恢复正常。如果变量不是连续的,则同样如此。

与违规的相关性有多强?看看Anscombe四重奏。它很好地说明了几个问题。

至于其他类型的分析,则取决于分析。例如,如果偏斜变量是回归中的自变量,则可能根本没有问题-您需要查看残差。


1
一些变量也存在峰度问题,但是偏斜是最大的问题。我已经尝试对问题变量进行平方根和对数转换,但是它们并没有太大改善。实际上,分布看起来几乎完全相同,但是得分却更多。
始祖鸟

1
这似乎很奇怪。您可以发布相关变量的均值,中位数,偏度,峰度吗?还是(甚至更好)它的密度图?
彼得·弗洛姆

6
无论(X,Y)的分布是否为二元正态分布,皮尔逊相关性均是线性度的量度。样本估计的概率分布将取决于正态性。
Michael R. Chernick 2012年

3
这些变量不是很偏斜。您可以按原样保留它们。
彼得·弗洛姆

3
不必担心这里的重要性。通常,<-2或> 2的偏斜和峰度可能需要转换。更好的方法是查看图表,例如分位数法线图和带有内核的密度图,以了解发生了什么。
彼得·弗洛姆
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.