连续变量和分类(标称)变量之间的相关性


41

我想找到连续变量(因变量)和分类变量(标称:性别,自变量)之间的相关性。连续数据不是正态分布。在此之前,我已经使用Spearman的进行了计算。但是,有人告诉我这是不对的。ρ

在互联网上搜索时,我发现箱线图可以提供有关它们之间关联程度的想法;但是,我一直在寻找量化值,例如Pearson的乘积矩系数或Spearman的。您能帮我怎么做吗?或者,告知哪种方法合适?ρ

双峰系数会是正确的选择吗?


通常,不能仅根据数据格式提出建议!数据代表什么,您想通过分析实现什么?
kjetil b halvorsen 2014年

1
感谢kjetil,我想比较性别和其他连续变量之间的关联。简而言之,哪些连续变量具有中等/强烈相关性,哪些没有相关性。
Ferdous Wahid博士2014年

1
好像是stats.stackexchange.com/questions/25229 / ...的副本... 您能告诉我们该答案是否对您有帮助?
kjetil b halvorsen 2014年

是的,我的问题与此类似。但是,我得到了一个反馈,评论者指出Spearman的不适合。我的样本大小为31。根据答案(提供的链接),非正态将不是问题,可以对大型数据集使用任何相关方法(Spearman / Pearson / Point-Biserial)。小数据集也是如此吗?顺便说一句,性别不是人为地创建的二分名义规模。上面的链接应使用二元相关系数。ρ
Ferdous Wahid博士2014年

3
标称和区间或序数变量stats.stackexchange.com/q/73065/3277
ttnphns的

Answers:


25

书评应该告诉你为什么斯皮尔曼是不恰当的。这是它的一种形式:假设数据为Z iI i,其中Z是被测变量,I是性别指标,假设它是0(男人),1(女人)。然后分别基于Z I的等级计算Spearman的ρ。由于指标I仅有两个可能的值,因此会有很多联系,因此此公式不合适。如果用平均等级替换等级,则只会得到两个不同的值,一个是男性,另一个是女性。然后ρρ(Zi,Ii)ZIρZ,IIρ基本上将成为两组之间平均排名的一些调整后的版本。简单地比较均值会更简单(更易于解释)!下面是另一种方法。

为男性之间连续变量的观测值,女性为Y 1Y m相同。现在,如果XY的分布相同,则P X > Y 将为0.5(假设分布纯粹是绝对连续的,因此没有关系)。在一般情况下,定义 θ = P X > Y ,其中X是男性中的随机抽签,YX1,,XnY1,,YmXYP(X>Y)

θ=P(X>Y)
XY妇女之间。我们可以从样本中估算吗?形成所有对X iY j(假设没有关系),并计算有多少个“男人更大”(X i > Y j)(M)和多少个“女人更大”(X i < Y j)(W)。则θ的一个样本估计为 Mθ(Xi,Yj)Xi>YjMXi<YjWθ 这是相关性的一种合理度量!(如果只有几个关系,则忽略它们)。但是我不确定那叫什么(如果有名称)。这可能很接近:https: //en.wikipedia.org/wiki/Goodman_and_Kruskal%27s_gamma
MM+W

5
Spearman的等级相关性只是应用于数字变量和原始二进制变量值的等级的Pearson相关性(此处的排序无效)。因此,斯皮尔曼的rho是Point-biserial关联的秩模拟。在这种情况下,我描述性地使用Spearman的rho不会出现任何问题。
Michael M

迈克尔·迈耶(Michael Mayer):是的,也许可行,但是其中有什么要点吗?它不提供一些手段不相同的信息!这是更直接的解释。
kjetil b halvorsen 2014年

1
等级差异是否更容易解释为Spearman的rho?即使是这样,您会认为Spearman的rho错误吗?遗憾的是我们没有看到审稿人的推理。
Michael M

1
您的建议很好。它似乎与Wilcoxon的两样本检验的检验统计量有关,该检验统计量本身类似于Kendall在数字结果与二进制组变量之间的等级相关性。
Michael M

1
θθ^1θ

8

我现在遇到同样的问题。我还没有看到任何人引用它,但是我正在研究基于Pearson相关系数构建的Point-Biserial Correlation。它表示连续变量和二分变量。

快速阅读:https : //statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php

我使用R,但是我发现SPSS具有出色的文档。


1
寻找连续变量和二分变量之间的相关性的很好参考!但是,列出的假设有点强。
SUNDONG

1

似乎最合适的比较是比较二进制类别之间的中位数(因为它是非正态的)和分布。我建议使用非参数的Mann-Whitney检验...


6
尽管Mann-Whitney将是一种识别变量(或更确切地说是随机性优势的更一般形式)跨二元分类变量的位置偏移的方法,但Mann-Whitney不会比较中位数,至少在没有其他假设的情况下。
Glen_b 2015年

1

对于指定的问题,测量接收器操作员特征曲线的曲线下方面积可能会有所帮助。

我不是专家,所以我尽量保持简单。请评论任何错误或错误解释,以便我进行更改。

xyxxx

xx

xx

上面的陈述是根据曲线下的面积计算的。

良好相关性(右)和公平反相关性(左)的示例良好相关性(右)和公平反相关性(左)的 示例。


1
欢迎来到简历!您的答案太短了,似乎无法帮助您找到:“连续(因变量)与类别(名义:性别,自变量)变量之间的相关性”。您可以编辑答案以包括AUROC应该如何实现这一目标吗?
弗朗斯·罗登堡

-3

您应该使用线性趋势替代独立性。如果您不知道这种方式,可以研究第41页的分类数据分析简介。


4
已经有一个可接受的答案。尚不清楚您的答案有什么作用。你能解释更多吗?我假设您参考了Agresti对分类数据分析的介绍。请提供完整的引文。
TEG-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.