研究这两种类型的变量之间的关系的有意义的“相关”度量是什么?
在R中,该怎么做?
X <- sample(c(0,1),replace=TRUE,size=100)
(2)Y <- X + rnorm(100,0.5)
(3)corr(Y,X)
(4)X <- 1 + 10*X
(5)corr(X,Y)
:两种相关结果相同!
研究这两种类型的变量之间的关系的有意义的“相关”度量是什么?
在R中,该怎么做?
X <- sample(c(0,1),replace=TRUE,size=100)
(2)Y <- X + rnorm(100,0.5)
(3)corr(Y,X)
(4)X <- 1 + 10*X
(5)corr(X,Y)
:两种相关结果相同!
Answers:
暂时,让我们忽略连续/离散问题。基本上,相关性测量变量之间线性关系的强度,您似乎正在寻求一种替代的方法来测量关系的强度。您可能会对从信息论中了解一些想法感兴趣。具体来说,我认为您可能希望查看共同信息。互信息本质上为您提供了一种量化一个变量的状态可以告诉您有关另一个变量的信息的方法。实际上,我认为这个定义更接近于大多数人在考虑相关性时的含义。
对于两个离散变量X和Y,计算如下:
对于两个连续变量,我们积分而不是求和:
您的特定用例是一种离散的和一种连续的。我认为与其将一个积分求和或对一个整数求和,不如将一个变量转换为另一种类型更容易。要做到这一点的典型方法是离散的连续变量为离散的垃圾箱。
有很多方法可以离散数据(例如,相等间隔),并且我相信如果您想使用R,则熵包对于MI的计算应该会有所帮助。
如果分类变量为序数,并且将连续变量分为几个频率间隔,则可以使用Gamma。Kendal的tau,Stuart的tau和Somers D也可用于按序形式的成对数据。这些都可以在SAS中使用Proc Freq获得。我不知道如何使用R例程计算它们。这是一个提供详细信息的演示文稿的链接:http : //faculty.unlv.edu/cstream/ppts/QM722/measuresofassociation.ppt#260,5,标称和序数变量的关联度量
类别变量实际上只是一组指标变量。测量理论的基本思想是,这样的变量对于类别的重新标记是不变的,因此在对另一个变量之间的关系(例如“相关性”)进行任何度量时,使用类别的数字标记是没有意义的。 。因此,对连续变量和分类变量之间关系的度量应完全基于衍生自后者的指标变量。
假设您想要度量两个变量之间的“相关性”,那么观察连续随机变量与从ta分类变量派生的指标随机变量之间的相关性是有意义的。让我们有:我φ &equiv; P(我= 1 )
这使:
因此,连续随机变量和指标随机变量之间的相关性是指标概率和期望值的标准化增益(基于一个相当简单的函数)。注意,该相关不需要对连续随机变量进行任何离散化。I ϕ X I = 1
对于范围为的一般分类变量您只需扩展此思想即可为分类变量的每个结果提供一个相关值向量。对于任何结果我们可以定义相应的指标,我们有:1 ,。。。,米Ç = ķ 我ķ ≡ 我(C ^ = ķ )
然后,我们可以定义作为相关值的向量类别随机变量的每个类别。实际上,这是谈论分类随机变量的“相关性”的唯一意义。
(注意:证明是微不足道的,因此分类随机变量的相关向量受到此约束。这意味着给定的概率向量已知分类随机变量以及的标准偏差,您可以从其任意个元素中得出向量。)X m − 1
上面的说明是针对真实的相关值的,但是显然必须在给定的分析中对其进行估计。从样本数据估计指标的相关性很简单,并且可以通过为每个部分替换适当的估计值来完成。(如果愿意,可以使用更高级的估计方法。)给定样本数据我们可以将相关方程的各部分估计为:
替换这些估计将产生相关矢量的基本估计。如果您在上具有参数信息,则可以通过最大似然法或其他某种方法直接估计相关矢量。