与无序分类变量的相关性


123

我有一个包含许多观察结果和许多变量的数据框。其中一些是分类的(无序),其他是数字的。

我正在寻找这些变量之间的关联。我已经能够计算数值变量的相关性(斯皮尔曼相关性),但是:

  • 我不知道如何测量无序分类变量之间的相关性。
  • 我不知道如何测量无序分类变量和数值变量之间的相关性。

有谁知道该怎么做?如果是这样,是否有R函数实现这些方法?


Answers:


113

这取决于您想要哪种相关感。当运行原型Pearson的乘积矩相关性时,您可以度量关联的强度,并可以测试该关联的重要性。然而,更典型地,显着性检验效应大小的度量是不同的。

重要性测试:

效果大小(关联强度):


5
可以在这里找到有关连续与标称情况的非常详尽的解释:标称(IV)和连续(DV)变量之间的相关性
gung

3
在二进制vs间隔的情况下,存在点-二进制相关性
Glen_b 2015年

对于大样本的卡方检验,有什么更好的替代方法?
Waldir Leoncio

2
p<.055%

1
正如@gung所指出的,标称(IV)变量与连续(DV)变量之间的相关性是如何实现混合变量相关性的绝佳链接。Hmisc::rcorr做到这一点很漂亮,我们可以检查它(对于混合变量数据框),如下所示:as.data.frame(rcorr(as.matrix(data_frame),type = "pearson")$P) as.data.frame(rcorr(as.matrix(data_frame),type = "pearson")$r)
KarthikS 2015年


6

如果需要分类变量的相关矩阵,则可以使用以下包装器函数(需要“ vcd”包):

catcorrm <- function(vars, dat) sapply(vars, function(y) sapply(vars, function(x) assocstats(table(dat[,x], dat[,y]))$cramer))

哪里:

vars 是要关联的分类变量的字符串向量

dat 是一个包含变量的data.frame

结果是Cramer V的矩阵。


6

XKtiKi=1,,pXŤ一世[R2

这种分析可以看作是多重对应分析的概括,并且以许多名称而闻名,例如规范相关分析,同质性分析以及许多其他名称。R中的实现位于homals软件包中(在CRAN上)。谷歌搜索其中的一些名称会提供大量信息,有一本完整的书:Albert Gifi,“非线性多元分析”。祝好运!


1
1个

我将进行编辑以考虑到此评论。
kjetil b halvorsen

2

我有一个类似的问题,我按照建议尝试了卡方检验,但在针对NULL假设评估P值时感到非常困惑。

我将解释如何解释分类变量。我不确定这与您的情况是否相关。我有响应变量Y和两个预测变量X1和X2,其中X2是具有两个级别的分类变量,分别为1和2。我试图拟合线性模型

ols = lm(Y ~ X1 + X2, data=mydata)

但是我想了解不同级别的X2如何满足上述方程式。我碰到一个R函数by()

by(mydata,X2,function(x) summary(lm(Y~X1,data=x)))

该代码的作用是,它试图针对X2的每个级别都适合于线性模型。这给了我所有P值和R平方,我理解并可以解释的残留标准误差。

同样,我不确定这是否是您想要的。我比较了在预测Y时X2的不同值。


1

为了测量两个类别变量之间的链接强度,我宁愿建议使用带有卡方统计量的交叉表

要测量数字变量和分类变量之间的链接强度,可以使用均值比较来查看它是否从一个类别显着变化到另一个类别


2
欢迎使用该站点@DaSilvaLionel。您可能会注意到上面已经建议对两个类别变量使用卡方检验。
gung
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.