尽管具有正态性假设,为什么等级的皮尔逊相关性仍然有效?


9

我目前正在阅读有关Pearson相关性的假设。随后的t检验的一个重要假设似乎是两个变量都来自正态分布。如果他们不这样做,则提倡使用替代措施,例如Spearman rho。Spearman相关性的计算就像Pearson相关性一样,仅使用X和Y的等级而不是X和Y本身,对吗?

我的问题是:如果需要将输入到Pearson相关中的变量进行正态分布,那么即使输入变量是等级,为什么Spearman相关性的计算仍然有效?我的排名肯定不是来自正态分布...

到目前为止,我唯一得出的解释是,对rho的重要性的检验可能与Pearson相关t检验的检验有所不同(以不需要正态性的方式),但是到目前为止,我还没有找到公式。但是,当我运行一些示例时,除最后几位数字外,等级的Phoson相关性的rho和t检验的p值始终匹配。对我来说,这看起来不像是一个突破性的过程。

您可能会有任何解释和想法!

Answers:


7

计算皮尔逊相关性不需要正态性;只是有关人口总数的某种形式的推断是基于正常假设(CI和假设检验)的。

如果没有正态性,则该特定形式的推断的隐含属性将不成立。

对于Spearman相关性,您没有正态性,但这很好,因为Spearman相关性的推论计算(例如假设检验)不是基于正态性假设。

它们是基于连续双变量分布中的一组成对等级得出的;在这种情况下,假设检验使用基于等级的检验统计量的置换分布。

当推断皮尔逊相关性的通常假设成立时(双变量正态性),斯皮尔曼相关性通常非常接近(尽管平均而言稍微接近于0)。

(因此,当您可以使用Pearson时,Spearman通常会做得很好。如果除了一些其他过程(造成异常值)的污染之外,您的正态数据几乎是双变量的,则Spearman将是一种更可靠的方法来估算无污染的分布。)


谢谢,对置换分布的引用很有帮助!
GST95

“ Spearman将是估计相关性的更强大的方法”对于nitpick,Spearman将估计相关性,而不是线性相关性。
landroni 2014年

1
@landroni如果我通常谈论的是Spearman,您正确地描述了Spearman的行为-但是在那句话中,我明确地是在谈论比较污染下人口相关性的两个估计,我的意思是从字面上说。想象一个具有相关性的双变量法线ρ然后添加一个非常极端的异常值 如果我想估计ρ 在这种情况下,斯皮尔曼是对 ρ比皮尔逊相关。
Glen_b-恢复莫妮卡2014年

1
@landroni ...可能会发生这种情况,您的主要流程运行得很好,而某些污染流程可能非常极端,但仅偶尔发生。如果您对估算未污染过程的相关性感兴趣,那么Pearson相关性非常容易受到污染的影响,其程度要比Spearman大得多。
Glen_b-恢复莫妮卡2014年

2

当我运行一些示例时,除最后几位数字外,等级的Phoson相关性的rho和t检验的p值总是匹配的

那么,您一直在运行错误的示例!

a = c(1,2,3,4,5,6,7,8,9)
b = c(1,2,3,4,5,6,7,8,90)
cor.test(a,b,method='pearson')

    Pearson's product-moment correlation

data:  a and b
t = 2.0528, df = 7, p-value = 0.0792
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.08621009  0.90762506
sample estimates:
      cor 
0.6130088 

cor.test(a,b,method='spearman')

    Spearman's rank correlation rho

data:  a and b
S = 0, p-value = 5.511e-06
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho 
  1 

向量ab具有良好的线性相关性,但远非完美的线性(Pearson)相关性。但是,它们具有完美的等级相关性。见-到斯皮尔曼的ρ,在这种情况下,最后一位数字是否b为8.1、9、90或9000(请尝试!)并不重要,只有大于8时才重要。这就是相关等级所产生的差异。

相反,而ab有完善的等级相关,他们的Pearson相关系数小于1,这表明皮尔逊相关不反映行列。
皮尔逊相关性反映线性函数,秩相关性仅反映单调函数。在正常数据的情况下,两者将非常相似,我怀疑这就是为什么您的数据在Spearman和Pearson之间显示出较大差异的原因。

作为一个实际的例子,请考虑以下内容;您想看看身高较高的人是否体重更大。是的,这是一个愚蠢的问题……但是只要假设这就是您所关心的。现在,体重不再随体重线性增加,因为高个子的人也比小个子的人宽。因此体重不是身高的线性函数。比您高10%的人(平均)比您重10%以上。这就是为什么body / mass索引在分母中使用立方体的原因。
因此,您将假定线性相关关系以不正确地反映身高/体重关系。相反,在这种情况下,等级相关对物理和生物学的烦人规律不敏感;它并不能反映出人们随着身高的增长是否线性地线性增长,而只是反映出更高的人(在一个尺度上排名更高)是否在体重(在另一个尺度上排名更高)。

一个更典型的示例可能是类似Likert的问卷调查排名,例如人们对某项事物的评价为“完美/良好/体面/中等/不良/糟糕”。在规模上,“完美”与“体面”的距离远不如“体面”与“不良” 的远,但是我们真的可以说两者之间的距离是相同的吗?线性相关不一定合适。排名相关性更自然。

为了更直接地解决您的问题:不,Pearson和Spearman相关性的p值不能以不同的方式计算。两者在概念和数值上都有很大的不同,但是如果检验统计量相等,则p值将相等。

在Pearson相关正态的假设的问题,看到这个
更一般地说,其他人在参数与非参数相关(也请参阅此处)主题以及关于分布假设的意义上比我能更好地阐述


谢谢!下次,我一定会更多地尝试这些示例。:)
GST95

1
不,等等,实际上这不是我的问题。我没有将method =“ pearson”与x和y的method =“ spearman”版本进行比较。我比较cor.test(x, y, method = "spearman")cor.test(rank(x), rank(y), method = "pearson")。无论选择哪种数据,这些估计都是相同的。不过还是谢谢你!:)
GST95

@ GST95,Spearman的相关性正是对经过秩转换的数据执行的Pearson的相关性。您的两个“方法”实际上是完全相同的方法。
丹尼斯

@Dennis,确切地说,我不是在比较(相同的)rho系数,而是在比较p值,看看它们是否都是通过t检验获得的。
GST95,2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.