我很想收到有关在构建量表时何时使用“ 因子得分 ”而不是简单得分总和的建议。即“精炼”而不是“未精炼”的因素评分方法。来自DiStefano等。(2009; pdf),重点增加了:
因子得分计算方法主要有两类:精炼和非精炼。未精炼的方法是相对简单的累积过程,可提供有关个人在因素分布上的位置的信息。简单性使其具有一些吸引人的功能,即,未经改进的方法既易于计算,又易于解释。完善的计算方法使用更复杂的技术方法来创建因子得分。 与未改进的方法相比,它们更精确,更复杂,并提供标准化分数的估计值。
在我看来,如果目标是创建一个可以在研究和设置中使用的量表,那么所有量表项的简单总和或平均得分就很有意义。但是,可以说,目标是评估程序的治疗效果,而重要的对比在于样品(治疗组与对照组)之间。有什么理由使我们更喜欢因子得分来衡量总和或平均值?
要具体说明替代方案,请考虑以下简单示例:
library(lavaan)
library(devtools)
# read in data from gist ======================================================
# gist is at https://gist.github.com/ericpgreen/7091485
# this creates data frame mydata
gist <- "https://gist.github.com/ericpgreen/7091485/raw/f4daec526bd69557874035b3c175b39cf6395408/simord.R"
source_url(gist, sha1="da165a61f147592e6a25cf2f0dcaa85027605290")
head(mydata)
# v1 v2 v3 v4 v5 v6 v7 v8 v9
# 1 3 4 3 4 3 3 4 4 3
# 2 2 1 2 2 4 3 2 1 3
# 3 1 3 4 4 4 2 1 2 2
# 4 1 2 1 2 1 2 1 3 2
# 5 3 3 4 4 1 1 2 4 1
# 6 2 2 2 2 2 2 1 1 1
# refined and non-refined factor scores =======================================
# http://pareonline.net/pdf/v14n20.pdf
# non-refined -----------------------------------------------------------------
mydata$sumScore <- rowSums(mydata[, 1:9])
mydata$avgScore <- rowSums(mydata[, 1:9])/9
hist(mydata$avgScore)
# refined ---------------------------------------------------------------------
model <- '
tot =~ v1 + v2 + v3 + v4 + v5 + v6 + v7 + v8 + v9
'
fit <- sem(model, data = mydata, meanstructure = TRUE,
missing = "pairwise", estimator = "WLSMV")
factorScore <- predict(fit)
hist(factorScore[,1])
"more exact"
。在线性计算的因子得分中,就“与未知的真实因子值最相关”的意义而言,回归方法最为“精确”。是的,更精确(在线性代数方法内),但不完全精确。