当在特定人群中进行测量时,某些变量的数据往往是非正常的(例如,患有严重抑郁症的人群中的抑郁水平)。假设Pearson假设为正态性,那么在非正态条件下检验统计量的稳健性如何?
我有一些我想要相关系数的变量,但是其中一些变量的Z偏度在p <.001时很明显(这是相对较小的样本)。我已经尝试了一些转换,但是发行版中的改进充其量只是微不足道的。
我是否必须坚持使用非参数分析?不仅是相关性,还有其他类型的分析?
当在特定人群中进行测量时,某些变量的数据往往是非正常的(例如,患有严重抑郁症的人群中的抑郁水平)。假设Pearson假设为正态性,那么在非正态条件下检验统计量的稳健性如何?
我有一些我想要相关系数的变量,但是其中一些变量的Z偏度在p <.001时很明显(这是相对较小的样本)。我已经尝试了一些转换,但是发行版中的改进充其量只是微不足道的。
我是否必须坚持使用非参数分析?不仅是相关性,还有其他类型的分析?
Answers:
简短的回答:非常不强壮。相关性是对线性相关性的一种度量,并且当一个变量不能写为另一个变量的线性函数(并且仍然具有给定的边际分布)时,就不能具有完美的(正或负)相关性。实际上,可能的相关值可能受到严格限制。
问题在于,尽管总体相关性始终在和1之间,但可达到的确切范围在很大程度上取决于边际分布。快速证明和演示:
如果具有分布函数ħ和边缘分布函数˚F和G ^,存在一些相当不错的上界和下界ħ, ħ - (X ,ÿ )≤ ħ (X ,ÿ )≤ ħ +(X ,y ), 称为Fréchet边界。这些是 ħ - (X ,ÿ )
边界本身就是分布函数。令具有均匀分布。上限是的分布函数(X ,Ý )= (˚F - (Û ),G ^ - (Û ))和下界的分布函数(˚F - (- Û ),G ^ - (1 - ü ))。
现在,使用以下公式该变型的协方差, 我们看到,我们获得的最大和最小相关性时 ħ等于 ħ +和 ħ - ,分别,即,当 ÿ是的(正或负,分别地)单调函数 X。
以下是一些示例(无证据):
请注意,所有范围都是针对总体相关性的。样本相关性可以轻松扩展到范围之外,尤其是对于小样本(快速示例:样本大小为2)。
如果您可以从边际分布中进行模拟,则实际上很容易估计相关性的上限和下限。对于上面的最后一个示例,我们可以使用以下R代码:
> n = 10^5 # Sample size: 100,000 observations
> x = rnorm(n) # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769
如果我们只有实际数据而又不知道边际分布,则仍然可以使用上述方法。只要观察对是相关的,变量是相关的就不成问题。但是,它有助于建立许多观察对。
您在这里真正要做的是创建一种新的依赖度量,该依赖不依赖于边际分布。也就是说,您正在创建基于copula的依赖度量。已经存在几种这样的度量,最著名的是Spearman的 ρ和Kendall的 τ。(如果您真的对依赖项概念感兴趣,那么研究copulas并不是一个坏主意。)
一些最终的想法和建议:仅查看相关性就有一个大问题:它使您停止思考。另一方面,查看散点图通常会使您开始思考。因此,我的主要建议是检查散点图,并尝试显式地建模依赖性。
就是说,如果您需要一个简单的类似相关的度量,则只需使用Spearman的 ρ(以及相关的置信区间和检验)。其范围不受限制。但是要非常注意非单调依赖性。在对相关维基百科的文章有几个漂亮的曲线说明潜在的问题。
这些变量的分布是什么样的(除了偏斜之外)?如果唯一的非正态性是偏度,则必须进行某种转换。但是,如果这些变量有很多混淆,则没有任何变换可以使它们恢复正常。如果变量不是连续的,则同样如此。
与违规的相关性有多强?看看Anscombe四重奏。它很好地说明了几个问题。
至于其他类型的分析,则取决于分析。例如,如果偏斜变量是回归中的自变量,则可能根本没有问题-您需要查看残差。