如何计算变量组之间/组之间的相关性?


13

我有一个包含1000个观察值和50个变量的矩阵,每个变量以5分制为单位。这些变量被组织成组,但是每个组中变量的数量并不相等。

我想计算两种类型的相关性:

  1. 变量组内的相关性(在特征之间):某种程度的变量,用于确定变量组内的变量是否在测量同一事物。
  2. 变量组之间的相关性:某种度量(假设每个组反映一个整体特征)是每个特征(组)如何与其他特征相关联。

这些特征先前已被分为几类。我对找到组之间的相关性很感兴趣-即假设组中的特征正在测量相同的基本特征(已在上面完成#1-Cronbach的alpha值),这些特征本身是否相关?

有人对从哪里开始有建议吗?


1
如果您熟悉R,则有一个vegan带有功能的软件包,anosim最好是adonis(置换MANOVA)。
RomanLuštrik2011年

我已经更新了您的问题,尝试使用标准术语(即变量而不是特征;变量组而不是“组”)
Jeromy Anglim 2011年

Answers:


16

@rolando的建议似乎是一个好的开始,即使不是整个答复(IMO)。让我继续遵循经典测试理论(CTT)框架的相关方法。在这里,正如@Jeromy所指出的那样,针对您的一组特征的汇总度量可以被视为属于我现在称为标度的所有项目(用您的话来说是特征)的总分(或总分)。在CTT下,这使我们可以将个人的“特征”倾向或责任形式化为一个人的位置,以一个连续的尺度反映一个潜在的结构(一个潜在的特征),尽管在这里它只是一个序数尺度(但这是心理学计量学的另一场辩论) 。

您所描述的与心理学计量学中的收敛性(属于同一等级的项目在多大程度上相互关联)和判别性(属于不同等级的项目不应在很大程度上关联)有关。经典技术包括多特征多方法(MTMM)分析(Campbell和Fiske,1959年)。下面显示了其工作原理的图示(三种方法或手段,三种构造或特征):

在此处输入图片说明

在这个MTMM矩阵中,对角元素可能是Cronbach的alpha或测试-重新测试类内相关性。这些是每个测量标尺可靠性的指标。当使用不同的工具评估同一性状时,通过量表分数的相关性来评估假设(共享)结构的有效性。如果这些工具是独立开发的,则高相关性()将支持以一致和客观的方式定义特征的想法。MTMM矩阵中的其余单元格总结了方法内的特征之间以及方法间的特征之间的关系< .3>0.7,表示以不同的尺度衡量独特结构的方式,以及在给定尺度下每个特征之间的关系是什么。假设独立特征,我们通常不期望它们很高(建议阈值),但是可以对假设进行更正式的检验(基于相关点估计)。一个微妙的地方是,我们使用了所谓的“休息相关性”,即在删除项目(或特征)与其量表(或方法)的贡献后,计算项目(或特征)与其量表(或方法)之间的相关性。交叠)。<.3

即使最初开发此方法来评估不同测量工具研究的某些特征的收敛性和判别有效性,也可以将其应用于单个多尺度仪器。然后,特征变成项目,方法只是不同的尺度。将该方法推广到单个仪器也称为多特征定标。与预期相关的项目(即与他们自己的规模而不是不同的规模)相关的项目被视为扩展成功。但是,我们通常假设不同的规模没有相关性,也就是说,它们针对的是不同的假设结构。但是,对刻度内和刻度间的相关求平均值可以提供一种汇总仪器内部结构的快速方法。这样做的另一种便捷方法是在成对相关矩阵上进行聚类分析,并查看变量如何相互关联。

值得注意的是,在这两种情况下,通常都需要使用相关度量进行警告,也就是说,您不能考虑测量误差,需要大量样本,仪器或测试被假定为“平行”(tau等效,不相关误差,相等的误差方差)。

@rolando讨论的第二部分也很有趣:如果没有理论或实质性的迹象表明已经确定的项目分组是有意义的,那么您将必须找到一种方法,例如通过探索性因素分析来突出显示数据的结构。但是,即使您信任那些“组内的特征”,也可以检查这是一个有效的假设。现在,您可能正在使用验证性因素分析模型来检查项目加载的模式(项目与自身比例的相关性)是否符合预期。

除了传统的因子分析方法外,您还可以查看项目聚类(Revelle,1979),该项目依赖于Cronbach基于alpha的拆分规则将项目组合为同等规模。

最后一句话:如果您使用的是R,则有两个非常好的软件包可以简化上述步骤:

  • 斗志,为您提供您需要开始使用心理测量方法,包括因子分析(一切fafa.parallelprincipal),项目集群(ICLUST和相关方法),信度的α(alpha); William Revelle的网站上有一个不错的概述,尤其是心理计量学理论的介绍及其在R中的应用
  • psy,还包括碎石图(通过PCA +模拟数据集)可视化(scree.plot)和MTMM(mtmm)。

参考文献

  1. DT的Campbell和DW的Fiske(1959)。通过多特征多方法矩阵进行收敛和判别验证。心理公报,56:81-105。
  2. Hays,RD和Fayers,P.(2005)。评估多项目量表。在评估临床试验的生活质量中,(Fayers,P.和Hays,R.,Eds。),第41-53页。牛津。
  3. Revelle W.(1979)。层次聚类分析和测试的内部结构。多元行为研究,14:57-74。

也许这是我在任何交易所都读到的最有趣的回复,并且我研究计量经济学已有5年了。
d8aninja '16

这里包括的MTMM矩阵是否应该作为相关矩阵的现实示例?如果是这样,我会注意到它实际上不是正半定矩阵:例如,方法1,2中特质1,2的相关性的4-by-4次要因素为-0.0419179。(由于这是一个较小的负值,所以可能只是到了您
要说的

7

我阅读术语的方式是,首先要评估每组变量之间的内部一致性,然后评估构成每组变量平均值的量表得分之间的相关性。第一个可以使用Cronbach's alpha完成,第二个可以使用Pearson相关。假设您具有合理的正态分布和合理的线性关系。

一种更复杂的方法(不一定是必需的方法)将是进行探索性因素分析。您将尝试确定应将哪些变量分组在一起,然后再将这些因素关联到什么程度。如果尝试使用此方法,请确保使用倾斜旋转以显示这些相关性。是否使用主成分提取或主轴提取分别取决于变量是客观变量,无误差度量还是主观度量,例如包含一定误差的调查项目。


感谢您的答复。我已经成功计算了克伦巴赫(Cronbach)的alpha,但是在这种情况下如何计算皮尔森相关系数?我可以针对每个单独的特征以成对方式计算它们,但是我想知道如何计算特征组之间的相关性。对于每个观察结果,组内的特征将具有相似的分数。我将编辑我的问题以使其更清楚。
2011年

5
  • 在您所处的环境中,至少在心理学上,标准工具将是探索性和验证性因素分析,以评估项目间相关性矩阵与某些建议的因素和项目之间关系模型的收敛性。用问题表达的方式表明您可能不熟悉这些文献。例如,这是我关于规模构建和因子分析的注释,这是Quick-R形式的R on因子分析教程。因此,尽管值得回答您的特定问题,但我认为,通过研究评估多项目,多因素量表的因素分析方法,可以更好地服务于您更广泛的目标。

  • 另一种标准策略是计算每组变量的总分(我称其为“量表”)并关联量表。

  • 许多可靠性分析工具将报告平均项目间相关性。

  • 如果在项目之间创建了50 x 50的相关矩阵,则可以在R中编写一个函数,该函数根据变量组的组合来平均子集。如果混合使用正项和负项,则可能无法获得所需的结果,因为负相关可能会抵消正相关。


2

我建议使用相关性概念的替代,该相关性仅针对成对定义,即高斯模型中的互信息和积分概念。

G1

I1log(|C1|)

C1G1G1log(1ρ2)ρ

要计算两组变量之间的相互作用,可以使用互信息,这只是组之间的交叉熵:

中号ü12=一世12-一世1个-一世2

快速谷歌搜索后,我在这些概念上找到了参考,可能会有所帮助。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.