如何获得两个类别变量与一个类别变量和连续变量之间的相关性?


63

我正在建立一个回归模型,我需要计算以下内容以检查相关性

  1. 2个多级分类变量之间的相关性
  2. 多级分类变量和连续变量之间的相关性
  3. 多级分类变量的VIF(方差膨胀因子)

我相信在上述情况下使用Pearson相关系数是错误的,因为Pearson仅适用于2个连续变量。

请回答以下问题

  1. 哪种相关系数最适合上述情况?
  2. VIF计算仅适用于连续数据,那么有什么替代方法?
  3. 在使用您建议的相关系数之前,需要检查哪些假设?
  4. 如何在SAS&R中实施它们?

4
我想说CV.SE是解决诸如此类的更多理论统计数据的理想场所。如果不是,我会说您问题的答案取决于上下文。有时是有道理的扁平化多层次为虚拟变量,其他时候,它是值得您的数据根据多项分布等进行建模
ffriend

您的分类变量是否排序?如果是,这会影响您要查找的相关类型。
nassimhddd 2014年

我的研究必须面对同样的问题。但我找不到解决此问题的正确方法。因此,如果可以的话,请给我您所找到的参考资料。
user89797 2015年

您是说p值与相关系数r相同吗?
Ayo Emma

上面用ANOVA进行分类和连续的解决方案是好的。小打cc。p值越小,两个变量之间的“拟合”越好。并非相反。
myudelson

Answers:


73

两个分类变量

可以使用Chi-Squared独立性检验来检查两个分类变量是否独立。

这是典型的卡方检验:如果我们假设两个变量是独立的,则这些变量的列联表的值应均匀分布。然后我们检查实际值与统一值有多远。

还存在Crammer的V,它是此测试得出的相关度量

假设我们有两个变量

  • 性别:男女
  • 城市:布卢瓦和图尔

我们观察到以下数据:

观察值

性别和城市独立吗?让我们执行卡方测试。空假设:它们是独立的,替代假设是它们以某种方式相关。

在零假设下,我们假设分布均匀。所以我们的期望值如下

期望值

因此,我们进行卡方检验,此处得出的p值可以看作是这两个变量之间相关性的量度。

要计算Crammer的V,我们首先找到归一化因子chi-squared-max(通常为样本的大小),将chi-square除以它并取平方根

补习班v

[R

tbl = matrix(data=c(55, 45, 20, 30), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))

chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)

这里的p值为0.08-很小,但仍不足以拒绝独立性的假设。所以我们可以说这里的“相关”是0.08

我们还计算V:

sqrt(chi2$statistic / sum(tbl))

并得到0.14(v越小,相关性越低)

考虑另一个数据集

    Gender
City  M  F
   B 51 49
   T 24 26

为此,它将给出以下内容

tbl = matrix(data=c(51, 49, 24, 26), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))

chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)

sqrt(chi2$statistic / sum(tbl))

p值是0.72,它非常接近1,而v是0.03-非常接近0

分类变量与数值变量

对于这种类型,我们通常执行单向方差分析:计算组内方差和组内方差,然后进行比较。

我们想研究从甜甜圈吸收的脂肪与用于生产甜甜圈的脂肪类型之间的关系(示例来自此处

甜甜圈

变量之间是否有任何依存关系?为此,我们进行了ANOVA测试,发现p值仅为0.007-这些变量之间没有相关性。

[R

t1 = c(164, 172, 168, 177, 156, 195)
t2 = c(178, 191, 197, 182, 185, 177)
t3 = c(175, 193, 178, 171, 163, 176)
t4 = c(155, 166, 149, 164, 170, 168)

val = c(t1, t2, t3, t4)
fac = gl(n=4, k=6, labels=c('type1', 'type2', 'type3', 'type4'))

aov1 = aov(val ~ fac)
summary(aov1)

输出是

            Df Sum Sq Mean Sq F value  Pr(>F)   
fac          3   1636   545.5   5.406 0.00688 **
Residuals   20   2018   100.9                   
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

因此,我们在这里也可以将p值用作相关性的度量。

参考文献


1
感谢Alexey提供的详细信息。根据更多的研究,我发现了多序列和多氯相关。您的方法如何比这些更好?请解释一下
GeorgeOfTheRF

1
很抱歉,我不知道这些事情。
阿列克谢·格里戈列夫

@Alexey的精彩回答。阅读您的评论后,我在线阅读了多变量/多序列相关性。它们是从两个观察到的变量估计两个潜在变量之间的相关性的技术。我认为这不是您要的,并且与Alexey的答案不相上下。
KarthikS

1
您的第一个示例不是绝对分类还是绝对分类,而是绝对分类与数字分类,实际上,您是在根据数字中男性(分别为女性)的数量来查看城市。分类VS绝对会是这样,比如说,城市 VS 眼睛的颜色形状或其他任何东西,但绝不会是代表了性别的数量。
gentl

1
@AlexeyGrigorev如果我们的数据不是正态分布的,应该kruskal-wallic使用而不是one-way anova?提前致谢。
ebrahimi
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.