皮尔逊或斯皮尔曼与非正态数据的相关性


113

我在统计咨询工作中经常听到这个问题,以为我会在这里发布。我有一个答案,发布在下面,但我很想听听其他人怎么说。

问题:如果您有两个非正态分布的变量,是否应使用Spearman的rho进行相关?


1
为什么不计算和报告(皮尔森r 斯皮尔曼ρ)?它们的差异(或缺乏差异)将提供其他信息。

一个问题,比较当我们检验简单回归系数beta的显着性以及检验Pearson相关系数(与beta的数值成正比)stats.stackexchange.com/q/181043/3277时所做的分布假设。
ttnphns 2015年

Answers:


77

皮尔逊相关性是两个连续随机变量之间线性关系的度量。尽管确实假设有有限的方差和有限的协方差,但它没有假设正态性。当变量为双变量正态时,皮尔逊相关性将提供关联的完整描述。

Spearman的相关性适用于等级,因此可以度量两个连续随机变量之间的单调关系。它对于序数数据也很有用,并且对异常值具有鲁棒性(与Pearson的相关性不同)。

尽管由于中心极限定理,两者都是渐近正态的,但是任何一个相关系数的分布都将取决于基础分布。


12
Pearson的不假定正态性,但是如果联合分布为多元正态,则仅是一种详尽的关联度量。考虑到这种区别引起的困惑,您可能需要将其添加到答案中。ρ
user603 2010年

3
是否有可以引用上述来源的资料(Person的r不具有正常性)?目前,我们部门有同样的争论。

5
“当变量是二元正态变量时,Pearson的相关性提供了对该关联的完整描述。” 当变量不是二元正态变量时,皮尔森相关性有多有用?
landroni 2014年

2
这个答案似乎是间接的。“当变量是二元正态变量时……”什么时候不?这种解释就是为什么我从来没有得到统计数据。“罗布,你觉得我的新衣服怎么样?” “深色强调您的浅色皮肤。” “当然,罗布,但是你喜欢它如何强调我的皮肤吗?” “浅肤色在许多文化中被认为是美丽的。” “我知道,罗布,但是喜欢吗?” “我认为这件衣服很漂亮。” “我也这么认为,罗布,但对我来说很漂亮吗?” “你对我来说总是很漂亮,亲爱的。” 叹息

1
如果您在此之前阅读了两个句子,将会找到答案。
罗布·海恩德曼

49

别忘了肯德尔的牛头!罗杰·纽森一直主张Kendall的优越性τ 过Spearman相关[R 小号在一份文件中,其全文现在免费提供在线的相关性的基于排名的措施:

Newson R. “非参数”统计量背后的参数:Kendall的tau,Somers的D和中位数差异Stata Journal 2002; 2(1):45-64。

他引用(第p47页)Kendall&Gibbons(1990)认为:“ ... Spearman的r S的置信区间比Kendall的τ-参数的置信区间可靠度低,也难以解释,但是样本Spearman的r S容易得多。无需计算机即可进行计算”(当然,这已不再重要)。不幸的是,我无法轻松获得他们的书的副本:

肯德尔,MG和JD Gibbons。1990。等级相关方法。第五版。伦敦:格里芬。


2
我也是肯德尔牛头犬的忠实粉丝。皮尔森对我的品味影响点/异常值太敏感了,尽管斯皮尔曼没有受到这个问题的困扰,但我个人认为肯德尔比斯皮尔曼更容易理解,解释和解释。当然,您的里程可能会有所不同。
Stephan Kolassa

我的经验记忆是,肯德尔的tau仍然比Spearman的慢(在R中)。如果数据集很大,这可能很重要。
wordforthewise

35

从应用的角度来看,我更关心的是选择一种以与我的研究问题相一致的方式总结两个变量之间的关系的方法。我认为,确定一种获取准确的标准误差和p值的方法应该是第二个问题。即使您选择不依赖渐近性,也始终可以选择引导或更改分布假设。

一般而言,我更喜欢皮尔逊相关性,因为(a)它通常更符合我的理论兴趣;(b)它可以使研究之间的结果具有更直接的可比性,因为我所在地区的大多数研究都报告了Pearson的相关性;(c)在许多情况下,Pearson和Spearman相关系数之间的差异很小。

但是,在某些情况下,我认为Pearson与原始变量的相关性具有误导性。

  • 离群值:离群值可以对Pearson的相关性产生很大的影响。应用设置中的许多异常值反映了测量失败或模型不打算推广到的其他因素。一种选择是删除此类异常值。Spearman的rho不存在单变量离群值,因为所有内容都转换为等级。因此,Spearman更加强大。
  • 高度偏斜的变量:在关联偏斜的变量(尤其是高度偏斜的变量)时,对数或其他变换通常会使两个变量之间的潜在关系更加清晰(例如,脑尺寸乘以动物的体重)。在这种设置下,原始指标可能不是最有意义的指标。通过将两个变量都转换为秩,Spearman的rho与转换具有相似的效果。从这个角度来看,Spearman的rho可以看作是一种快速而肮脏的方法(或者更积极的是,它不太主观),因此您不必考虑最佳转换。

在以上两种情况下,我都建议研究人员在应用Pearson的相关性之前考虑调整策略(例如,变换,离群值移除/调整)或使用Spearman的rho。


转换的问题是,通常它还会转换与每个点相关的误差,从而转换权重。它并不能解决离群值的问题。
skan 2015年

11

更新

问题要求我们在对正态性提出质疑时在皮尔逊方法和斯皮尔曼方法之间进行选择。出于这种考虑,我认为以下论文应该为任何人的决定提供依据:

很好,它提供了有关该主题数十年的大量文献的调查-从Pearson的“残缺和扭曲的曲面”以及的分布稳健性开始。“事实”的矛盾性质至少有一部分是,这项工作大部分是在计算能力出现之前完成的,这使事情变得复杂,因为必须考虑非正态性的类型,并且如果不进行模拟就很难对其进行检验。r

Kowalski的分析得出的结论是,在存在非正态性的情况下,的分布稳健,并建议使用替代程序。整篇文章内容丰富,推荐阅读,但请跳过本文结尾处的简短结论以进行总结。r

如果要求在违反正态性的情况下在Spearman和Pearson之一之间进行选择,则建议使用无分布替代方法,即Spearman的方法。


以前 ..

Spearman的相关性是基于等级的相关性度量。它是非参数的,并且不依赖于正常性的假设。

皮尔逊相关性的抽样分布的确具有正态性。特别是,这意味着尽管可以计算,但基于重要性检验的结论可能并不合理。

正如Rob在评论中指出的那样,对于大量示例而言,这不是问题。但是,对于小样本,在违反正态性的情况下,应优先考虑Spearman的相关性。

更新评论和答案的方法,在我看来,这可以归结为通常的非参数测试与参数测试的争论。许多文献,例如生物统计学,都没有涉及大样本。我通常不依赖于渐进疗法。在这种情况下,也许这是合理的,但对我而言,这并不容易。


1
不会。Pearson的相关性不具有正态性。它是对任意两个连续随机变量之间相关性的估计,并且是在相对一般条件下的一致估计。如果样本由于CLT而足够大,则即使基于Pearson相关性的测试也不需要正态性。
罗伯·海德曼

2
我的印象是,只要基础分布具有有限的方差和协方差,就可以定义Pearson。那么,是常态不是必需的。如果基础分布不是正态分布,则检验统计量可能具有不同的分布,但这是次要问题,与当前问题无关。不是吗

2
@Rob:是的,我们总是可以提出解决方法,以使事情大致相同。只是避免使用Spearman的方法-大多数非统计人员都可以使用标准命令来处理该方法。我想我的建议仍然是将Spearman方法用于正态性值得怀疑的小样本。不知道这里是否有争议。
ars

1
@ars。如果我对单调关联而不是线性关联感兴趣,或者如果存在离群值或高度偏斜,则可以使用Spearman的。如果没有离群值,我将使用Pearson的线性关系。我认为样本量与做出选择无关。
罗伯·海恩德曼

3
@Rob:好的,谢谢你的讨论。我同意第一部分,但我怀疑最后一部分,并且会认为该大小只起作用,因为正常的渐进不适。例如,科瓦尔斯基(Kowalski)1972对这方面的历史进行了很好的调查,并得出结论,皮尔逊的相关性不如人们想像的强。请参阅:jstor.org/pss/2346598
ARS
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.