我有一个包含许多观察结果和许多变量的数据框。其中一些是分类的(无序),其他是数字的。
我正在寻找这些变量之间的关联。我已经能够计算数值变量的相关性(斯皮尔曼相关性),但是:
- 我不知道如何测量无序分类变量之间的相关性。
- 我不知道如何测量无序分类变量和数值变量之间的相关性。
有谁知道该怎么做?如果是这样,是否有R函数实现这些方法?
我有一个包含许多观察结果和许多变量的数据框。其中一些是分类的(无序),其他是数字的。
我正在寻找这些变量之间的关联。我已经能够计算数值变量的相关性(斯皮尔曼相关性),但是:
有谁知道该怎么做?如果是这样,是否有R函数实现这些方法?
Answers:
这取决于您想要哪种相关感。当运行原型Pearson的乘积矩相关性时,您可以度量关联的强度,并可以测试该关联的重要性。然而,更典型地,显着性检验和效应大小的度量是不同的。
重要性测试:
效果大小(关联强度):
Hmisc::rcorr
做到这一点很漂亮,我们可以检查它(对于混合变量数据框),如下所示:as.data.frame(rcorr(as.matrix(data_frame),type = "pearson")$P)
as.data.frame(rcorr(as.matrix(data_frame),type = "pearson")$r)
这种分析可以看作是多重对应分析的概括,并且以许多名称而闻名,例如规范相关分析,同质性分析以及许多其他名称。R中的实现位于homals
软件包中(在CRAN上)。谷歌搜索其中的一些名称会提供大量信息,有一本完整的书:Albert Gifi,“非线性多元分析”。祝好运!
我有一个类似的问题,我按照建议尝试了卡方检验,但在针对NULL假设评估P值时感到非常困惑。
我将解释如何解释分类变量。我不确定这与您的情况是否相关。我有响应变量Y和两个预测变量X1和X2,其中X2是具有两个级别的分类变量,分别为1和2。我试图拟合线性模型
ols = lm(Y ~ X1 + X2, data=mydata)
但是我想了解不同级别的X2如何满足上述方程式。我碰到一个R函数by()
by(mydata,X2,function(x) summary(lm(Y~X1,data=x)))
该代码的作用是,它试图针对X2的每个级别都适合于线性模型。这给了我所有P值和R平方,我理解并可以解释的残留标准误差。
同样,我不确定这是否是您想要的。我比较了在预测Y时X2的不同值。
为了测量两个类别变量之间的链接强度,我宁愿建议使用带有卡方统计量的交叉表
要测量数字变量和分类变量之间的链接强度,可以使用均值比较来查看它是否从一个类别显着变化到另一个类别