评级分数与估计因子分数之和?


12

我很想收到有关在构建量表时何时使用“ 因子得分 ”而不是简单得分总和的建议。即“精炼”而不是“未精炼”的因素评分方法。来自DiStefano等。(2009; pdf),重点增加了:

因子得分计算方法主要有两类:精炼和非精炼。未精炼的方法是相对简单的累积过程,可提供有关个人在因素分布上的位置的信息。简单性使其具有一些吸引人的功能,即,未经改进的方法既易于计算,又易于解释。完善的计算方法使用更复杂的技术方法来创建因子得分。 与未改进的方法相比,它们更精确复杂,并提供标准化分数的估计值。

在我看来,如果目标是创建一个可以在研究和设置中使用的量表,那么所有量表项的简单总和或平均得分就很有意义。但是,可以说,目标是评估程序的治疗效果,而重要的对比在于样品(治疗组与对照组)之间。有什么理由使我们更喜欢因子得分来衡量总和或平均值?

要具体说明替代方案,请考虑以下简单示例:

library(lavaan)
library(devtools)

# read in data from gist ======================================================
# gist is at https://gist.github.com/ericpgreen/7091485
# this creates data frame mydata
  gist <- "https://gist.github.com/ericpgreen/7091485/raw/f4daec526bd69557874035b3c175b39cf6395408/simord.R"
  source_url(gist, sha1="da165a61f147592e6a25cf2f0dcaa85027605290")
  head(mydata)
# v1 v2 v3 v4 v5 v6 v7 v8 v9
# 1  3  4  3  4  3  3  4  4  3
# 2  2  1  2  2  4  3  2  1  3
# 3  1  3  4  4  4  2  1  2  2
# 4  1  2  1  2  1  2  1  3  2
# 5  3  3  4  4  1  1  2  4  1
# 6  2  2  2  2  2  2  1  1  1

# refined and non-refined factor scores =======================================
# http://pareonline.net/pdf/v14n20.pdf

# non-refined -----------------------------------------------------------------
  mydata$sumScore <- rowSums(mydata[, 1:9])
      mydata$avgScore <- rowSums(mydata[, 1:9])/9
  hist(mydata$avgScore)

# refined ---------------------------------------------------------------------
  model <- '
            tot =~ v1 + v2 + v3 + v4 + v5 + v6 + v7 + v8 + v9
           '
  fit <- sem(model, data = mydata, meanstructure = TRUE,
             missing = "pairwise", estimator = "WLSMV")
  factorScore <- predict(fit)
  hist(factorScore[,1])

我从标题中删除了“干预”,以使问题听起来更笼统,并且因为干预可能对两种建构推论之间的区别没有独特而具体的影响。请,如果您不同意,欢迎您退回我的编辑。
ttnphns

1
They are more exact这种增加的重点不应使我们偏离事实,即使因子得分也不可避免地不精确(“不确定”)。
ttnphns

另请参阅类似的问题:stats.stackexchange.com/q/31967/3277
ttnphns

我认为“干预”作为一个特殊的用例是相关的,但不必在标题中。我已经强调了问题中的关键问题。至于强调“更精确”,鉴于您对因子得分不确定的观察,我很想知道这一点。感谢您提供其他问题的链接。
埃里克·格林

"more exact"。在线性计算的因子得分中,就“与未知的真实因子值最相关”的意义而言,回归方法最为“精确”。是的,更精确(在线性代数方法内),但不完全精确。
ttnphns

Answers:


6

我自己在一些当前项目中一直在努力解决这个想法。我认为您需要问问自己,这里的估计值是多少。如果适合单因素模型,则因子得分将估算潜在因子。清单变量的直接总和或均值会估计其他内容,除非每个观察值均对因子施加相同的负担,并且唯一性也相同。而且其他事情可能并不是很大的理论兴趣。

因此,如果适合一个因素模型,建议您使用因素得分。我同意您对各个研究的可比性的观点,但在特定研究中,我认为因素得分对他们有很大帮助。

有趣的地方是单因素模型不适合,要么是因为应用了两个因素模型(或更高),要么是因为协方差结构比因素模型预测的更为复杂。对我来说,问题是变量的总和是否指真实的东西。如果数据具有多个维度,则尤其如此。在实践中,经常发生的是,您有一堆相关变量(也许是一项调查中的项目),其中一个或两个与其他变量有很大不同。您可以说“为此而死”,并取所有结果的平均值,而不管它意味着什么。或者,您可以使用因子得分。如果您采用单因素模型,则通常会发生的是,因素分析将降低不太有用的变量(或至少是那些真正属于第二因素评分的变量)。实际上,它发现它们属于不同维度,并忽略它们。

因此,我认为因子得分可以对数据进行修剪,以提供比您开始时更单维的东西。但是我对此没有参考,如果我喜欢这种方法,我仍在尝试自己的工作。对我来说,当您将分数翻成其他具有相同数据的模型时,最大的危险就是过拟合。分数已经是优化问题的答案,那么剩下的分析又在哪里呢?我讨厌思考。

但归根结底,如果像单因素模型那样的变量适用,变量的总和或总和是否有意义?

如果人们从一开始就设计出更好的秤,这些问题中就不会出现很多。


感谢您的评论,@ Placidia。您带来一些清晰度,同时提醒我们更大的麻烦!我认为这是一个值得考虑的有趣观点:“如果因子模型合适,则因子得分将估算潜在因子。清单变量的直接总和或均值将估算其他因素,除非每个观察值均等地加载到因子上,并且唯一性也相同。另外一些东西可能并不是很大的理论兴趣。”
埃里克·格林

+1是一个非常周到的答案。需要补充的几点想法:1)关于研究之间的可比性,重要的是要认识到,与组件加载不同的是,它可以响应模型中包含/排除的变量而发生很大变化,而公共因子加载是参数估计。随后,他们应该在研究之间复制(在抽样误差内),因此,因子得分也应如此。2)如果您担心使用因子得分,则可以查看确定性指数以及因子得分相关性反映潜在相关性的程度……
jsakaluk 2016年

1
...因为我认为这是DiStefanno等人讨论的策略。等 评估因子得分是否可以“可信”的论文。最后3)如果您的目标(如Placidia所述)是分析大部分是一维的,则可以考虑采用双因素分析方法,据我所知,该方法首先提取每个变量加载的公因子,然后进行正交分析。为变量子集提取因子,表面上反映了最重要的可区分因子,超出了将所有变量捆绑在一起的共同维度。
jsakaluk '16

Placidia,在您的答案的最后编辑中,您反复受表达式限制one-factor model。我只是想知道为什么。您是在说2因子模型中的因子得分estimate the latent factor不再吗?为什么这样?而且,如何在正在开发的调查表(Q的可能上下文)的上下文中定义“单因素模型”:是调查表是单因素/量表,还是每个包含的项目都严格属于一个因素/规模?拜托,您介意让它变得更清晰吗?
ttnphns

我想避免潜在的误会。如果您相信两因素模型,那么大概使用汇总总数将是不可能的。对于数据中的两个维度,您需要两个摘要。我想澄清一下,我的答案是在摘要统计量和单因素模型的因素得分之间进行选择。我声称,即使模型错误,单因素得分也可能有用。@jsakaluk提出的拟合多因素模型并选择第一个因素的建议也是可能的,并且在某些情况下可能会更好。
Placidia

4

对由公共因子加载的项目进行求和或平均是计算construst得分(表示tha因子的构造)的传统方法。它是计算因子得分的“粗略方法”的最简单版本;该方法的重点在于使用因子负载作为评分权重。尽管精制的方法来计算的分数使用特殊估计分数系数(计算所述载荷)作为权重。

这个答案不是普遍的“建议何时使用[精化的”因子得分而不是项目得分的简单总和”,这是一个广阔的领域,而是着眼于显示一些具体的明显含义,即优先考虑一种推测结构而不是另一种方法办法。

考虑一个简单的情况,其中有一个因子和它加载的两个项目。根据此处的脚注1 解释如何计算回归因子得分,用于计算因子得分的因子得分系数和来自Fb1b2F

s1=b1r11+b2r12

s2=b1r12+b2r22

其中和是因子与项目之间的相关性-因子负荷;是项目之间的相关性。该系数是什么区别于简单的因子得分,该项目得分的加权总和。因为,当您仅计算总和(或均值)时,您故意将两个设置为相等。而在“精确的”因子得分中, s是从上述等式获得的,通常不相等。s1s2r12bbb

为简单起见,由于因子分析通常是在相关性上进行的,我们将 s作为相关性,而不是协方差。那么和是单位,可以省略。然后,rr11r22

b1=s2r12s1r1221

b2=s1r12s2r1221

因此b1b2=(r12+1)(s1s2)r1221.

我们对 s 之间的潜在不等式如何取决于载荷 s和相关性之间的不等式感兴趣。函数在下面的表面图以及热图图上显示。bsr12b1b2

在此处输入图片说明

在此处输入图片说明

显然,由于负载相等(),因此系数也始终相等。随着增长,的响应也增长,并且增长越大。s1s2=0bs1s2b1b2r12

因此,如果两个项目的系数相等,则可以安全地设置它们的权重相等,即计算简单的总和,因为权重(确定回归系数得分)也大致相等。您离要素得分(a)不远。b

但是考虑两个不同的载荷,例如和,差异是。如果您选择简单地将受访者给出的分数相加,则您的决定相对于估计因子得分的严重程度取决于项目之间的相互关联程度。如果它们之间的相关性不是很强,那么您的偏见就不会太明显(b)。但是,如果它们之间确实存在很强的相关性,那么偏见也就很强,因此简单的总和将不起作用(c)。在三种情况下解释原因:s1=.70s2=.45.25

C。如果它们之间具有很强的相关性,则较弱的加载项是另一项的初级副本。以强大的替代品为前提来计算较弱的指标/症状的原因是什么?没有什么理由。因子得分会对此进行调整(而简单的总和则不会)。请注意,在多因素问卷中,“较弱的加载项”通常是另一个因子的项,在此较高。而在目前的因素中,如我们现在所见,该项目在计算因子得分时会受到限制-这是正确的。

b。但是,如果项目像以前一样受到不平等的加载,但并没有很强的相关性,那么它们对我们来说就是不同的指标/症状。并且可以算作“两次”,即仅求和。在这种情况下,因数评分试图尊重较弱的项目,直至其负荷仍然允许,因为它是因数的不同体现。

一个。两个项目也可以被计算两次,即,只要它们具有类似的足够高的因数(无论这些项目之间的相关性如何),就可以对其进行计数。(当因子的相关性不太紧密时,因子评分会增加两个项目的权重,但是权重是相等的。)如果它们都被强烈地加载,我们通常会容忍或接受相当重复的项目似乎是不合理的。如果您不喜欢这种方法(有时您可能希望这样做),您可以随时手动从因子中消除重复。

在此处输入图片说明

因此,在(至少通过回归方法)(精细)因子得分的计算中,在构成构造的变量中,对变量的影响显然是“顺着/推开” 。同样强的指标也可以相互容忍,同样强的指标也没有相互关联的指标。指标较弱与指标较强相关而“闭嘴”。简单的加法/平均法不会产生“弱重复”的吸引力。

另请参阅答案,警告因素在理论上是相当的“本质里面”比总集合或堆“的”指示性的现象。因此,盲目地汇总项目-既不考虑其装载量也不考虑其相关性-可能会出现问题。另一方面,计分的因子只能是其各项的总和,因此,一切都与总和中权重的更好概念有关。


让我们也更笼统和抽象地看一下粗略或求和方法的不足。

在答案的开头,我曾说过通过简单的求和/求平均值来获得构造得分是因子得分计算的粗略方法的一种特殊情况,其中得分系数 s被因子载荷 s 代替(当载荷按1(已加载)和0(已卸载),我们就可以对项目进行简单的求和或平均。ba

令为受访者因子得分(价值估算),为他的真实因子值(永远未知)。我们还知道,由公共因子加载的项和(具有加载和)由该公共因子加上唯一因子(我们假设后者包括特定因子S和误差项e)组成。因此,在像包通过那样计算因子得分时,我们有F^iiFiX1X2a1a2FUb

F^i=b1X1i+b2X2i=b1(Fi+U1i)+b2(Fi+U2i)=(b1+b2)Fi+b1U1i+b2U2i

如果恰好接近零和是等效的。除非完全不存在唯一因子(或者除非我们不知道它们的值,否则我们不知道),否则我们将无法提供精确反映值的分数。但是,我们可以这样设计两个系数:在受访者中可能最小;那么将与紧密相关。一种方法或另一种方法,通过从载荷 s和值估算得分系数 sb1U1i+b2U2iF^iFiUF^Fbvar[b1U1i+b2U2i]F^FbaX我们可以把成绩是相当有代表性的。F^F

但是,请看一下“粗略方法”-在其中用近似于用 s本身代替 s来加载载荷:abFF^

F^i=a1X1i+a2X2i= ... =(a1+a2)Fi+a1U1i+a2U2i

我们在这里看到的是,通过相同的系数对唯一因子进行加权,这些系数是变量如何由公共因子加权的程度。以上,小号进行了计算的帮助下 S,真实的,但他们不是 Š自己; 现在的本身照原样地变重 - 权衡无关的东西。这是我们在使用因子评分计算的“粗略方法”(包括项目的简单求和/平均)作为其特定变体时所犯的粗暴行为。a a abaaa


@ttnphns,谢谢您的帮助。对我来说有意义的是,可以将负载近似相等的项相加(a)。不幸的是,我认为我在工作中从未遇到过这样的情况:使用现有的一维标度时,我发现这些项目具有相等的负载。
埃里克·格林

因此,我对您对载荷不同情况的解释以及检查项目间相关性的建议特别感兴趣。我很想知道您是否对(a)中的“强”(c)/“不强”相关性(b)或“足够高”的载荷有任何经验法则。
埃里克·格林

1
最后,我将注意到,这个问题的背景是压倒性的学科规范(至少在心理学上),即使对新的非规范人群进行管理,也要使用需要简单求和(平均值)的“经过验证的”量表。通常,目标是跨样本比较(即使在不必要的情况下),这使简单的求和成为一种常见方法。
埃里克·格林

在我看来,干预研究是一个有趣的用例,因为兴趣的比较在样本之内。在我看来,我们更关心的是治疗效果的大小,而不是衡量这两个组的“原始”分数—尤其是在使用用于制定/规范该规模的人群以外的规模时。如果因子得分在某些情况下“更好”,那么似乎值得抛弃简单的方法,而采用一种具有更多概念意义的方法,因为知道最终我们只想看一下治疗效果的大小即可。
埃里克·格林

1
(续)Use "validated" scales本身并不一定需要简单的总和:如果验证是好的(代表性的大样本,良好的相关性,正确的因子数量,良好的拟合度等),则可以将计算出的因子得分(其系数)视为标准新人群使用的重量。在方面,我看不出任何简单的好处。
ttnphns
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.