我在统计咨询工作中经常听到这个问题,以为我会在这里发布。我有一个答案,发布在下面,但我很想听听其他人怎么说。
问题:如果您有两个非正态分布的变量,是否应使用Spearman的rho进行相关?
我在统计咨询工作中经常听到这个问题,以为我会在这里发布。我有一个答案,发布在下面,但我很想听听其他人怎么说。
问题:如果您有两个非正态分布的变量,是否应使用Spearman的rho进行相关?
Answers:
皮尔逊相关性是两个连续随机变量之间线性关系的度量。尽管确实假设有有限的方差和有限的协方差,但它没有假设正态性。当变量为双变量正态时,皮尔逊相关性将提供关联的完整描述。
Spearman的相关性适用于等级,因此可以度量两个连续随机变量之间的单调关系。它对于序数数据也很有用,并且对异常值具有鲁棒性(与Pearson的相关性不同)。
尽管由于中心极限定理,两者都是渐近正态的,但是任何一个相关系数的分布都将取决于基础分布。
别忘了肯德尔的牛头!罗杰·纽森一直主张Kendall的优越性τ 一过Spearman相关[R 小号在一份文件中,其全文现在免费提供在线的相关性的基于排名的措施:
Newson R. “非参数”统计量背后的参数:Kendall的tau,Somers的D和中位数差异。Stata Journal 2002; 2(1):45-64。
他引用(第p47页)Kendall&Gibbons(1990)认为:“ ... Spearman的r S的置信区间比Kendall的τ-参数的置信区间可靠度低,也难以解释,但是样本Spearman的r S容易得多。无需计算机即可进行计算”(当然,这已不再重要)。不幸的是,我无法轻松获得他们的书的副本:
肯德尔,MG和JD Gibbons。1990。等级相关方法。第五版。伦敦:格里芬。
从应用的角度来看,我更关心的是选择一种以与我的研究问题相一致的方式总结两个变量之间的关系的方法。我认为,确定一种获取准确的标准误差和p值的方法应该是第二个问题。即使您选择不依赖渐近性,也始终可以选择引导或更改分布假设。
一般而言,我更喜欢皮尔逊相关性,因为(a)它通常更符合我的理论兴趣;(b)它可以使研究之间的结果具有更直接的可比性,因为我所在地区的大多数研究都报告了Pearson的相关性;(c)在许多情况下,Pearson和Spearman相关系数之间的差异很小。
但是,在某些情况下,我认为Pearson与原始变量的相关性具有误导性。
在以上两种情况下,我都建议研究人员在应用Pearson的相关性之前考虑调整策略(例如,变换,离群值移除/调整)或使用Spearman的rho。
更新
问题要求我们在对正态性提出质疑时在皮尔逊方法和斯皮尔曼方法之间进行选择。出于这种考虑,我认为以下论文应该为任何人的决定提供依据:
很好,它提供了有关该主题数十年的大量文献的调查-从Pearson的“残缺和扭曲的曲面”以及的分布稳健性开始。“事实”的矛盾性质至少有一部分是,这项工作大部分是在计算能力出现之前完成的,这使事情变得复杂,因为必须考虑非正态性的类型,并且如果不进行模拟就很难对其进行检验。
Kowalski的分析得出的结论是,在存在非正态性的情况下,的分布不稳健,并建议使用替代程序。整篇文章内容丰富,推荐阅读,但请跳过本文结尾处的简短结论以进行总结。
如果要求在违反正态性的情况下在Spearman和Pearson之一之间进行选择,则建议使用无分布替代方法,即Spearman的方法。
以前 ..
Spearman的相关性是基于等级的相关性度量。它是非参数的,并且不依赖于正常性的假设。
皮尔逊相关性的抽样分布的确具有正态性。特别是,这意味着尽管可以计算,但基于重要性检验的结论可能并不合理。
正如Rob在评论中指出的那样,对于大量示例而言,这不是问题。但是,对于小样本,在违反正态性的情况下,应优先考虑Spearman的相关性。
更新评论和答案的方法,在我看来,这可以归结为通常的非参数测试与参数测试的争论。许多文献,例如生物统计学,都没有涉及大样本。我通常不依赖于渐进疗法。在这种情况下,也许这是合理的,但对我而言,这并不容易。