如何研究连续变量和分类变量之间的“相关性”?


19

研究这两种类型的变量之间的关系的有意义的“相关”度量是什么?

在R中,该怎么做?


1
在问“如何学习”之前,您应该对“如何定义”有答案:-)顺便说一句,如果将分类变量投影为整数,则可以进行相关。
2012年

2
@Tomas,如果这样做,则估计的关系强度取决于您决定标记点的方式,这有点吓人:)
Macro

@Macro,您是对的-具有良好定义的另一个可靠论点!
好奇的2012年

@Macro除非我误解了您的意思,否则。相关对线性变换不敏感。因此,对于有限的a和b,cor(X,Y)= cor(a + bX,Y)。将0/1重新标记为1/11不会对使用该var或其线性变换的相关性产生任何影响。
亚历克西斯

@好奇看到我对上面宏的评论。并注意:(1)X <- sample(c(0,1),replace=TRUE,size=100)(2)Y <- X + rnorm(100,0.5)(3)corr(Y,X)(4)X <- 1 + 10*X(5)corr(X,Y):两种相关结果相同!
亚历克西斯

Answers:


19

暂时,让我们忽略连续/离散问题。基本上,相关性测量变量之间线性关系的强度,您似乎正在寻求一种替代的方法来测量关系的强度。您可能会对从信息论中了解一些想法感兴趣。具体来说,我认为您可能希望查看共同信息。互信息本质上为您提供了一种量化一个变量的状态可以告诉您有关另一个变量的信息的方法。实际上,我认为这个定义更接近于大多数人在考虑相关性时的含义。

对于两个离散变量X和Y,计算如下:

一世X;ÿ=ÿÿXXpXÿ日志pXÿpXpÿ

对于两个连续变量,我们积分而不是求和:

一世X;ÿ=ÿXpXÿ日志pXÿpXpÿdXdÿ

您的特定用例是一种离散的和一种连续的。我认为与其将一个积分求和或对一个整数求和,不如将一个变量转换为另一种类型更容易。要做到这一点的典型方法是离散的连续变量为离散的垃圾箱。

有很多方法可以离散数据(例如,相等间隔),并且我相信如果您想使用R,则熵包对于MI的计算应该会有所帮助。


1
谢谢。但是,MI对应于corr = 1有多高,MI对应于corr = 0有多低?
露娜(Luna)

MI的最小值为0,并且仅当变量是独立的时,MI = 0。MI没有固定的上限(上限与变量的熵有关),因此,如果这对您很重要,则可能需要查看其中一个规范化版本。
Michael McGowan


1

类别变量实际上只是一组指标变量。测量理论的基本思想是,这样的变量对于类别的重新标记是不变的,因此在对另一个变量之间的关系(例如“相关性”)进行任何度量时,使用类别的数字标记是没有意义的。 。因此,对连续变量和分类变量之间关系的度量应完全基于衍生自后者的指标变量。

假设您想要度量两个变量之间的“相关性”,那么观察连续随机变量与从ta分类变量派生的指标随机变量之间的相关性是有意义的。让我们有:φ &equiv; P= 1 X一世ϕP一世=1个

CØv一世X=Ë一世X-Ë一世ËX=ϕ[ËX|一世=1个-ËX]

这使:

CØ[R[R一世X=ϕ1个-ϕËX|一世=1个-ËX小号X

因此,连续随机变量和指标随机变量之间的相关性是指标概率和期望值的标准化增益(基于一个相当简单的函数)。注意,该相关不需要对连续随机变量进行任何离散化。I ϕ X I = 1X一世ϕX一世=1个


对于范围为的一般分类变量您只需扩展此思想即可为分类变量的每个结果提供一个相关值向量。对于任何结果我们可以定义相应的指标,我们有:1 Ç = ķ ķC ^ = ķ C1个C=ķ一世ķ一世C=ķ

CØ[R[R一世ķX=ϕķ1个-ϕķËX|C=ķ-ËX小号X

然后,我们可以定义作为相关值的向量类别随机变量的每个类别。实际上,这是谈论分类随机变量的“相关性”的唯一意义。CØ[R[RCXCØ[R[R一世1个XCØ[R[R一世X

注意:证明是微不足道的,因此分类随机变量的相关向量受到此约束。这意味着给定的概率向量已知分类随机变量以及的标准偏差,您可以从其任意个元素中得出向量。)X m 1ķCØv一世ķX=0X-1个


上面的说明是针对真实的相关值的,但是显然必须在给定的分析中对其进行估计。从样本数据估计指标的相关性很简单,并且可以通过为每个部分替换适当的估计值来完成。(如果愿意,可以使用更高级的估计方法。)给定样本数据我们可以将相关方程的各部分估计为:X1个C1个XñCñ

ϕ^ķ1个ñ一世=1个ñ一世C一世=ķ

Ë^XX¯1个ñ一世=1个ñX一世

Ë^X|C=ķX¯ķ1个ñ一世=1个ñX一世一世C一世=ķ/ϕ^ķ

小号^XsX1个ñ-1个一世=1个ñX一世-X¯2

替换这些估计将产生相关矢量的基本估计。如果您在上具有参数信息,则可以通过最大似然法或其他某种方法直接估计相关矢量。X


0

R包mpmi具有计算混合变量大小写(即连续和离散)的互信息的能力。尽管这里还有其他一些统计选项,例如(点)双数相关系数,但由于它可以检测线性和单调以外的关联,因此计算互信息将是有益的,并强烈建议您进行计算。


0

如果是连续随机变量,而是分类rv。观察到的和之间的相关性可以通过XÿXÿ

  1. 点二列相关系数,如果是二分;ÿ
  2. 点polyserial相关系数,如果是polychotomous以序类别。ÿ

但是,应该指出的是,点-多序列相关性只是点-二序列的一般化。

从更广泛的角度来看,这是奥尔森,德拉斯堡和多兰(1982)[1]的表格。

相关系数

[1]:资料来源:Ulsson,U.,Drasgow,F。,和Dorans,NJ(1982)。多序列相关系数。Psychometrika,47(3),337-347

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.