显然,皮尔逊的相关系数是参数性的,而斯皮尔曼的rho是非参数性的。
我很难理解这一点。据我了解,Pearson的计算公式为 而Spearman的计算方法相同,不同之处在于,我们将所有值替换为其等级。
维基百科说
参数模型与非参数模型的区别在于,前者具有固定数量的参数,而后者随着训练数据量的增加而增加。
但是除了样本本身,我看不到任何参数。有人说参数测试假设服从正态分布,接着说皮尔逊确实假设服从正态分布数据,但是我看不出为什么皮尔逊会要求这样做。
所以我的问题是,在统计中,参数和非参数是什么意思?培生和斯皮尔曼如何融入其中?
6
这是一个很好的问题,并且那里存在很多错误信息。例如,不幸的是,参数测试方程式和假设正态分布经常引起混淆,因此许多教科书作者,课程老师和网络海报作者只是抄袭了那些或多或少感到困惑的人。
—
尼克·考克斯
也许问题的最简单的正解是这样的:是的,斯皮尔曼的相关性是量化关系强度的一个估计参数,因此类似于皮尔森(从根本上说,这是相同的想法,正如您所指出的);但不是,Spearman的相关性不是分布中的一个参数,而Pearson的相关性是二元正态分布中的一个参数(历史性,但现在淡化了对相关性的理解)。可以看到“参数”一词具有多种含义,这是一个很好的区别。
—
尼克·考克斯
@NickCox,为什么不将其发布为答案。
—
理查德·哈迪
仅当您要进行相关性显着性检验时,才真正了解有关分布正态性的观点。如果仅将相关性用作描述性度量,则非正态性不必成为使用相关性的障碍。只要两个二进制变量都发生变化,关联甚至可能会有点有用。您还需要注意异常值的影响,等等,等等
—
尼克·考克斯
由于似乎尚未明确说明,因此我想强调一点,没有任何统计数据是“参数”的。这就像说数字很好吃:形容词根本不适用于名词。统计模型可以是参数化的(如Wikipedia引文所述),也可以是基于模型的测试和过程。Spearman和Pearson 统计信息可用于参数设置和非参数设置。有关更多信息,请访问stats.stackexchange.com/questions/67204。使模型参数化的是其状态空间。
—
ub