我想找到连续变量(因变量)和分类变量(标称:性别,自变量)之间的相关性。连续数据不是正态分布。在此之前,我已经使用Spearman的进行了计算。但是,有人告诉我这是不对的。
在互联网上搜索时,我发现箱线图可以提供有关它们之间关联程度的想法;但是,我一直在寻找量化值,例如Pearson的乘积矩系数或Spearman的。您能帮我怎么做吗?或者,告知哪种方法合适?
双峰系数会是正确的选择吗?
我想找到连续变量(因变量)和分类变量(标称:性别,自变量)之间的相关性。连续数据不是正态分布。在此之前,我已经使用Spearman的进行了计算。但是,有人告诉我这是不对的。
在互联网上搜索时,我发现箱线图可以提供有关它们之间关联程度的想法;但是,我一直在寻找量化值,例如Pearson的乘积矩系数或Spearman的。您能帮我怎么做吗?或者,告知哪种方法合适?
双峰系数会是正确的选择吗?
Answers:
书评应该告诉你为什么斯皮尔曼是不恰当的。这是它的一种形式:假设数据为(Z i,I i),其中Z是被测变量,I是性别指标,假设它是0(男人),1(女人)。然后分别基于Z ,I的等级计算Spearman的ρ。由于指标I仅有两个可能的值,因此会有很多联系,因此此公式不合适。如果用平均等级替换等级,则只会得到两个不同的值,一个是男性,另一个是女性。然后ρ基本上将成为两组之间平均排名的一些调整后的版本。简单地比较均值会更简单(更易于解释)!下面是另一种方法。
设为男性之间连续变量的观测值,女性为Y 1,… ,Y m相同。现在,如果X和Y的分布相同,则P (X > Y )将为0.5(假设分布纯粹是绝对连续的,因此没有关系)。在一般情况下,定义 θ = P (X > Y ) ,其中X是男性中的随机抽签,Y
我现在遇到同样的问题。我还没有看到任何人引用它,但是我正在研究基于Pearson相关系数构建的Point-Biserial Correlation。它表示连续变量和二分变量。
快速阅读:https : //statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php
我使用R,但是我发现SPSS具有出色的文档。
似乎最合适的比较是比较二进制类别之间的中位数(因为它是非正态的)和分布。我建议使用非参数的Mann-Whitney检验...
您应该使用线性趋势替代独立性。如果您不知道这种方式,可以研究第41页的分类数据分析简介。