为什么Pearson是参数化的,而Spearman是非参数化的


19

显然,皮尔逊的相关系数是参数性的,而斯皮尔曼的rho是非参数性的。

我很难理解这一点。据我了解,Pearson的计算公式为 而Spearman的计算方法相同,不同之处在于,我们将所有值替换为其等级。

[RXÿ=CØvXÿσXσÿ

维基百科

参数模型与非参数模型的区别在于,前者具有固定数量的参数,而后者随着训练数据量的增加而增加。

但是除了样本本身,我看不到任何参数。有人参数测试假设服从正态分布,接着皮尔逊确实假设服从正态分布数据,但是我看不出为什么皮尔逊会要求这样做。

所以我的问题是,在统计中,参数和非参数是什么意思?培生和斯皮尔曼如何融入其中?


6
这是一个很好的问题,并且那里存在很多错误信息。例如,不幸的是,参数测试方程式和假设正态分布经常引起混淆,因此许多教科书作者,课程老师和网络海报作者只是抄袭了那些或多或少感到困惑的人。
尼克·考克斯

5
也许问题的最简单的正解是这样的:是的,斯皮尔曼的相关性是量化关系强度的一个估计参数,因此类似于皮尔森(从根本上说,这是相同的想法,正如您所指出的);但不是,Spearman的相关性不是分布中的一个参数,而Pearson的相关性是二元正态分布中的一个参数(历史性,但现在淡化了对相关性的理解)。可以看到“参数”一词具有多种含义,这是一个很好的区别。
尼克·考克斯

@NickCox,为什么不将其发布为答案。
理查德·哈迪

5
仅当您要进行相关性显着性检验时,才真正了解有关分布正态性的观点。如果仅将相关性用作描述性度量,则非正态性不必成为使用相关性的障碍。只要两个二进制变量都发生变化,关联甚至可能会有点有用。您还需要注意异常值的影响,等等,等等
尼克·考克斯

1
由于似乎尚未明确说明,因此我想强调一点,没有任何统计数据是“参数”的。这就像说数字很好吃:形容词根本不适用于名词。统计模型可以是参数化的(如Wikipedia引文所述),也可以是基于模型的测试和过程。Spearman和Pearson 统计信息可用于参数设置和非参数设置。有关更多信息,请访问stats.stackexchange.com/questions/67204。使模型参数化的是其状态空间
ub

Answers:


17

问题在于,“非参数”这些天确实有两个截然不同的含义。维基百科中的定义适用于诸如非参数曲线拟合之类的事情,例如通过样条曲线或局部回归。另一个较旧的含义更像是“无分布”的意思,也就是说,无论假定的数据分布如何,都可以应用这些技术。后者是适用于Spearman的rho的那个,因为等级转换意味着无论原始分布是什么,它都将给出相同的结果。


2
非参数确实具有两种含义,但是维基百科中的注释确实适用于两种含义。在非参数回归中,它是指关系不是有限参数的。在“无分布”方面,它指的是分布模型不是有限参数的。
Glen_b-恢复莫妮卡2015年

1
嗯,那是维基百科的引用不是我。有人添加了它。
Hong Ooi 2015年

2
主要编辑-我认为在一个细节上是不正确的,并且没有添加任何特别有用的内容-由于它是由low = rep用户进行的,并且被一个人拒绝,但后来在以下情况下被自动接受,因此进行了审核第三人试图进行编辑以改进它(他们可能没有意识到这将是后果)。我将把该编辑回滚到您原来的状态。您可以随时进行不喜欢的编辑。
Glen_b-恢复莫妮卡2015年

现在回滚到您的原始帖子,因为我认为它在未征得您的同意的情况下对您的帖子进行了太多更改,听起来好像您不同意。如果有什么你喜欢它,请点击上面我的名字“编辑...前”链接并复制哪些部分你喜欢什么,从在那里之前,然后编辑和粘贴。
Glen_b -Reinstate莫妮卡

什么时候可以使用Spearman?使用Spearman时,Pearson如何提供帮助?
莱奥波德·赫兹(LéoLéopoldHertz)2016年

3

我认为将皮尔逊相关系数称为参数化的唯一原因是因为您可以使用它来估计多元正态分布的参数。例如,双变量正态分布具有5个参数:两个均值,两个方差和相关系数。后者可以用皮尔森相关系数来估计。

ρ


从必须假设正态性以检验其重要性的意义上来说,Pearson的相关系数参数不是吗?也就是说,它不以正态性作为统计量,而是在计算样本相关系数的分布并对其进行检验时假设数据是正态的?这是一个诚实的问题,我可能是100%错误的。
格林

如果您在sperman和kendall中做了任何分配假设,您能否解释一下?
莱奥波德·赫兹(LéoLéopoldHertz)2016年

@mugen不必假设正态性即可检验Pearson相关性的显着性;皮尔逊相关性的通用检验就是这样做的。您可以做出不同的参数假设并提出不同的检验……或者,实际上,可以对总体Pearson相关性为零的零值进行置换检验,从而得出非参数检验。
Glen_b-恢复莫妮卡

0

我认为最简单的答案是Spearmen的rho测试使用序数数据(可以对数字进行排名,但不告诉您数字之间的间隔,例如,三种口味的冰淇淋分别排名1、2和3,但这仅告诉您味道优先而不是多少)。序数数据不能用于参数测试。

Pearson的r检验使用间隔或比率数据(具有固定间隔的数字,例如秒,kg,mm)。1毫米不仅小于5毫米,而且您确切知道多少。此类数据可用于参数测试。


1
当然,可以对序数数据使用参数模型-从而进行参数测试。一个需要简单地提出一种用于具有有限此变量的分布-和固定-相对于那些参数和数量的参数,以及一些合适的假说,一个参数测试存在。在一个或两个变量具有两个类别(标有两个不同的数字,通常为0/1)的情况下计算的Pearson相关性会导致这些情况下的常用关联度量。
Glen_b-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.