与无序分类变量的相关性

123

我有一个包含许多观察结果和许多变量的数据框。其中一些是分类的（无序），其他是数字的。

我正在寻找这些变量之间的关联。我已经能够计算数值变量的相关性（斯皮尔曼相关性），但是：

我不知道如何测量无序分类变量之间的相关性。
我不知道如何测量无序分类变量和数值变量之间的相关性。

有谁知道该怎么做？如果是这样，是否有R函数实现这些方法？

— ClémentF
source

4

stats.stackexchange.com/q/119835/3277 ; stats.stackexchange.com/q/73065/3277 ; stats.stackexchange.com/q/103253/3277。

— ttnphns

113

这取决于您想要哪种相关感。当运行原型Pearson的乘积矩相关性时，您可以度量关联的强度，并可以测试该关联的重要性。然而，更典型地，显着性检验和效应大小的度量是不同的。

重要性测试：

连续vs.名义：运行方差分析。在R中，您可以使用？aov。
标称值与标称值：运行卡方检验。在R中，您使用？chisq.test。

效果大小（关联强度）：

连续与名义：计算类内相关。在R中，您可以在心理软件包中使用？ICC；还有一个ICC软件包。
标称标称对比：计算克拉默上的A。在R中，可以在vcd软件包中使用？assocstats。

— 贡
source

5

可以在这里找到有关连续与标称情况的非常详尽的解释：标称（IV）和连续（DV）变量之间的相关性。

— gung

3

在二进制vs间隔的情况下，存在点-二进制相关性。

— Glen_b 2015年

对于大样本的卡方检验，有什么更好的替代方法？

— Waldir Leoncio

2

p

$p$

< .05

$<.05$

5 %

$5\%$

1

正如@gung所指出的，标称（IV）变量与连续（DV）变量之间的相关性是如何实现混合变量相关性的绝佳链接。Hmisc::rcorr做到这一点很漂亮，我们可以检查它（对于混合变量数据框），如下所示：as.data.frame(rcorr(as.matrix(data_frame),type = "pearson")$P)

$\:$ as.data.frame(rcorr(as.matrix(data_frame),type = "pearson")$r)

— KarthikS 2015年

15

我看过以下链接的备忘单：

https://stats.idre.ucla.edu/other/mult-pkg/whatstat/

这可能对您有用。它甚至具有指向特定R库的链接。

— DSea
source

3

该备忘单的问题在于它仅涉及类别/顺序/区间变量。我正在寻找一种允许我同时使用数值和分类独立变量的方法。

— 克莱门特˚F

6

如果需要分类变量的相关矩阵，则可以使用以下包装器函数（需要“ vcd”包）：

catcorrm <- function(vars, dat) sapply(vars, function(y) sapply(vars, function(x) assocstats(table(dat[,x], dat[,y]))$cramer))

哪里：

vars 是要关联的分类变量的字符串向量

dat 是一个包含变量的data.frame

结果是Cramer V的矩阵。

— 担
source

6

$X$ $K$ $t_i$ $K$ $i=1, \dots, p$ $X$ $t_i$ $R^2$

这种分析可以看作是多重对应分析的概括，并且以许多名称而闻名，例如规范相关分析，同质性分析以及许多其他名称。R中的实现位于homals软件包中（在CRAN上）。谷歌搜索其中的一些名称会提供大量信息，有一本完整的书：Albert Gifi，“非线性多元分析”。祝好运！

— 凯捷蒂尔·哈沃森
source

1

1

$1$

我将进行编辑以考虑到此评论。

— kjetil b halvorsen

2

我有一个类似的问题，我按照建议尝试了卡方检验，但在针对NULL假设评估P值时感到非常困惑。

我将解释如何解释分类变量。我不确定这与您的情况是否相关。我有响应变量Y和两个预测变量X1和X2，其中X2是具有两个级别的分类变量，分别为1和2。我试图拟合线性模型

ols = lm(Y ~ X1 + X2, data=mydata)

但是我想了解不同级别的X2如何满足上述方程式。我碰到一个R函数by（）

by(mydata,X2,function(x) summary(lm(Y~X1,data=x)))

该代码的作用是，它试图针对X2的每个级别都适合于线性模型。这给了我所有P值和R平方，我理解并可以解释的残留标准误差。

同样，我不确定这是否是您想要的。我比较了在预测Y时X2的不同值。

— Sohsum
source

1

为了测量两个类别变量之间的链接强度，我宁愿建议使用带有卡方统计量的交叉表

要测量数字变量和分类变量之间的链接强度，可以使用均值比较来查看它是否从一个类别显着变化到另一个类别

— 达席尔瓦·莱昂内尔（Da Silva Lionel）
source

2

欢迎使用该站点@DaSilvaLionel。您可能会注意到上面已经建议对两个类别变量使用卡方检验。

— gung