在因子分析中计算二元变量的皮尔逊相关性(而不是四项式)有什么危险?


10

我从事教育游戏的研究,目前的一些项目涉及使用BoardGameGeek(BGG)和VideoGameGeek(VGG)的数据来检查游戏设计元素之间的关系(例如“第二次世界大战”,“涉及掷骰子” )和这些游戏的玩家评分(例如,满分10分)。这些设计元素中的每个元素都与BGG或VGG系统中的标签相对应,因此每个元素本质上都是二分变量。游戏在数据库中为每个存在的标签提供1,为每个不存在的标签提供0。

这些标记有数十种,因此我想使用探索性因子分析(EFA)提出可管理数量的“类型”,以捕获游戏设计中的模式。咨询几个来源,据我所知,因为我有工作二元变量,我应该使用polychoric相关(四项,特别是在这里),而不是皮尔森用我的因素,即将到来的时候(也有其他的选择,喜欢的潜在特质分析-那些那里,但这是我现在正在探索的那个)。

出于好奇,我想出了两套因素,一套使用Pearson相关,另一套使用多色相关(每次使用相同数量的因素)。我的问题是,使用Pearson相关性计算出的因子比使用多色相关性计算出的因子更有意义并且更易于解释。换句话说,来自第一组因素的“类型”具有直觉意义,并且与我对游戏设计的理解相一致。第二组因素则不是这样。

一方面,我想确保我符合正在使用的测试的假设,即使这样做会使我的结果不太美观。另一方面,我认为因素分析和(更广泛的)模型构建的目标的一部分是想出一些有用的东西,而当我“违反规则”时,就会出现更多有用的信息。对有用模型的需求是否足以超过违反该检验假设的条件?使用Pearson相关而不是多选相关的结果到底是什么?


1
对于多于三个左右维度的数据,基本的多元正态性假设非常强,以至于多变量相关不再有意义。具有多变量相关性的模型错误指定的程度极有可能使您的分析变得毫无用处。不过,我不确定为什么首先需要这些相关性:如果您有明确的结果变量(评级)和大量解释变量(设计特征),则需要回归分析,而不是因子分析。
StasK 2015年

@StasK回归分析我的最终目标,但我有100多个解释变量,希望将其减少到更易于管理的数字。
斯潘塞·格林哈

此外,对于此类问题,分类本身就是一个目标。
Pere

Answers:


7

线性因子分析在理论上,逻辑上仅适用于连续变量。如果变量不是连续的,而是例如二分法,则您的一种方法是在其后面接受基础连续变量,并声明观察到的变量是合并的基础变量或真实变量。您无法在没有多余的“导师”的情况下将二分变量量化为一个小数位数,但是您仍然可以推断出相关性,即您的变量尚未归类并且是“原始”连续正态分布的。这是四色的相关(或多变量的,如果有二进制变量,则有序数变量)。因此,使用四项相关(推断的Pearson相关)代替Phi相关(观察到的带有二分数据的Pearson相关)是一种逻辑行为。

在二等分的合并变量上计算的Phi相关性对合并发生的切点(又称“任务难度级别”)非常敏感。一对变量只有在将它们合并到等效切割点上时,才希望达到理论界。切点之间的差异越大,它们之间可能的的最大值越低。(这是边际分布相同对皮尔逊可能范围的一般影响[R=1个[R[R,但是在二分变量中,这种影响最为明显,因为要取的值太少。)因此,由于二分变量中的边际分布形成对比,因此可以将其矩阵中的phi相关视为不均等收缩。您不知道一个相关性大于另一个“真实”相关性,还是由于这两对变量中的切入点不同而引起的。要提取的因素数量(遵循诸如Kaiser的“特征值> 1”之类的标准)将被夸大:一些提取的“因素”是不均匀性,切点多样性,而非实质性潜在因素的结果。这是实际的原因,为什么不使用phi相关(至少以原始-未缩放)形式。

在模拟/合并研究中已有证据表明,如果矩阵中存在许多强(> 0.7)相关性,则基于四色相关性的因子分析会恶化。四方相关性不是理想的:如果相关基础变量的切点在相反点(因此二分法中的边际分布相反地偏斜)而基础相关性很强,则四方系数会进一步高估它。还要注意,在不大的样本中,四色相关矩阵不一定是正半定的,因此可能需要校正(“平滑”)。尽管如此,它还是比对普通Pearson(phi)系数进行因子分析的方法更好。

但是为什么根本不对二进制数据进行因子分析呢?还有其他选项,包括潜在性状/ IRT(“后勤”因子分析的一种形式)和多重对应分析(如果您将二进制变量视为名义类别)。

也可以看看:

  • 线性因素分析的假设
  • 对于FA, 重新定标的Pearson可以(但不是很令人信服)替代四分频。[R[R

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.