我的免责声明:我意识到这个问题已经搁置了一段时间,但它似乎是一个重要的问题,并且您打算引起多种回答。我是一名社会心理学家,从它的声音看,与Henrik相比,使用这种设计可能要舒服一些(尽管他对因果解释的担忧是完全合理的)。
SEM在什么条件下是适当的数据分析技术?
对我来说,这个问题实际上来自两个不同的子问题:
- 为什么首先使用SEM?
- 如果研究人员决定使用SEM,则使用SEM的数据相关要求是什么?
为什么首先使用SEM?
与其他更典型的通用线性建模方法(例如,方差分析,相关性,回归及其扩展等)相比,扫描电镜是一种更细腻,更复杂(因此更难获得)的数据分析方法。您可以想到使用这些方法的任何事情,都可以使用SEM。
因此,我认为准用户应该首先强烈评估为什么他们被迫首先使用SEM。可以肯定的是,SEM为其用户提供了一些强大的好处,但是我已经审阅了没有利用这些好处的论文,而最终产品是论文中的数据分析部分,对于典型的读者而言,不必要地更难理解。如果未获得SEM与其他数据分析方法的优势,那么对于研究人员或读者来说,这简直是不值得的麻烦。
那么,我认为SEM方法的主要优点是什么?我认为最大的是:
(1)建模潜在变量:SEM允许用户检查未观察到的潜在变量之间的结构关系(方差,协方差/相关性,回归,组均值差),本质上是一组变量(例如,来自焦虑症的项目)之间的共同协方差衡量学生可能会使用的尺寸)。
分析潜在变量(例如,潜在焦虑)与观察到的结构得分(例如,焦虑项目的平均值)的最大卖点是,潜在变量没有错误-潜在变量由共享协方差构成,错误被理论化为一无所有。这就意味着增加了统计能力,因为用户不再需要担心测量的不可靠性削弱了他们试图建模的效果。
在某些情况下考虑使用SEM的另一个较为低调的原因是,这是测试我们的构造理论的更有效的构造方法。例如,如果您的学生使用三种不同的焦虑量度,那么最好不要在SEM框架中了解这三种量度的共同点(大概是焦虑)的起因/后果(大概是焦虑)特别是一个措施,因为在焦虑的措施?
(2)建模多个因变量注:即使某人不打算使用SEM对潜在变量建模,它作为在一个模型中同时分析多个结果变量的框架仍然非常有用。例如,也许您的学生有兴趣探索相同的预测变量如何与许多不同的临床相关结果(例如焦虑,抑郁,孤独,自尊等)相关联。当您可以对所有感兴趣的所有四个结果运行一个模型时,为什么还要运行四个单独的模型(提高I型错误率)?这也是在处理某些类型的依存数据时使用SEM的原因,其中多个依存的受访者可能同时产生预测和结果响应(例如,二元数据;请参见Kenny,Kashy和Cook,2006,
(3)对假设进行建模,而不是进行假设:通过许多其他数据分析方法(例如ANOVA,相关性,回归),我们对要处理的数据的属性做出大量假设,例如方差/同方差。SEM(通常与潜变量方法结合使用)使用户能够同时对均值和/或相关性/回归路径进行方差参数建模。这意味着,除了平均差异/协方差之外,用户还可以开始理论化和测试有关变异性的假设,而不仅仅是将变异性视为与令人讨厌的假设相关的事后想法。
在比较某个变量的组平均水平时,另一个可检验的假设是该变量是否对每个组实际上意味着相同的含义 - 在SEM文献中称为测量不变性(有关此过程的综述,请参见Vandenberg&Lance,2000年) )。如果是这样,则在该变量的平均水平上进行比较是有效的,但如果组对某物的含义有明显不同,则在组之间比较平均水平是有问题的。在使用组比较的研究中,我们始终隐含地做出此特定假设。
然后假设,当您对项目得分进行平均或求和(例如,根据焦虑测度)以创建汇总指数时,每个项目都可以很好地衡量基础结构(因为每个项目在平均/求和)。当使用潜在变量时,SEM通过估计每个项目的不同因子加载值(项目与潜在变量之间的关联)来消除此假设。
最后,当数据无法满足要求时,可以管理有关数据的其他假设(例如正态性),尽管对于SEM仍然很重要,但可以进行管理(例如,通过使用“稳健”的估计量,请参阅Finney&DiStefano,2008)。某些标准(偏度和峰度水平低)。
(4)指定模型约束:我认为考虑使用SEM的最后一个主要原因是,通过强制(以SEM术语“约束”)模型中的某些路径,可以很容易地测试您对数据模型的特定假设采取特定的价值,并研究如何影响模型对数据的拟合。一些示例包括:(A)将回归路径约束为零,以测试模型中是否必要;(B)包含多个大小相等的回归路径(例如,某些预测因子的关联强度是否与焦虑和抑郁大致相等?);(C)约束评估测量不变性所需的测量参数(如上所述);(D)将回归路径限制为两个不同组之间的强度相等,
SEM与数据相关的要求是什么?
SEM的数据相关要求相当适中;您需要足够的样本量,并且您的数据要满足所选模型估计量的假设(典型值为最大似然)。
对于样本量,很难给出一刀切的建议。根据一些简单的模拟,Little(2013)提出,对于非常简单的模型,可能需要100-150次观察,但是随着模型变得更加复杂和/或用于模型的变量的可靠性/有效性,样本量的需求将会增加。模型减少。如果需要考虑模型的复杂性,则可以考虑将潜在变量的指标分解为零,但并非所有方法都支持这种方法(Little,Cunningham,Shahar和Widaman,2002年)。但是总的来说,在所有其他条件相同的情况下,更大的样本(我在自己的研究中力争至少达到200个样本)会更好。
至于满足选定估计量的假设,通常这很容易评估(例如,查看最大似然估计量的偏度和峰度值)。即使数据偏离了假定的属性,研究也可以考虑使用“稳健”的估算器(Finney&DiStefano,2008),或者采用假定数据类型不同的估算器(例如,类别估算器,例如对角加权最小)。方块)。
SEM的替代数据分析方法?
如果研究人员不想利用我在上文中强调的SEM方法所提供的好处,我建议您坚持使用该特定分析的更直接,更易理解的版本(例如,测试,方差分析,相关分析,回归模型[包括中介,调节和条件过程模型]。读者对它们更加熟悉,因此会更容易理解它们。如果您本质上是在使用SEM来达到与更简单的分析方法相同的效果,那么就不应该使读者混淆SEM的细节。
对考虑使用SEM的研究人员的建议?
对于SEM新手:
- 获取全面,易于访问的基础SEM文本。我喜欢Beaujean(2014年),Brown(2015年;早期版本也很可靠)和Little(2013年;很好的整体介绍,尽管后来特别关注纵向模型)。
- 了解如何使用该
lavaan
软件包R
(Rosseel,2012年)。它的语法与SEM语法一样容易,它的功能足够广泛,可以满足许多人的SEM需要(绝对是初学者),并且它是免费的。Beaujean书对SEM和lavaan
软件包进行了很好的同步介绍。
- 定期咨询/使用CrossValidated和StacksOverflow。当拟合SEM模型时,可能会发生意外的事情,而且很可能,您可能会遇到的许多奇怪的事情已经在堆栈上进行了描述和排查。
- 正如Herik指出的那样,请注意,仅仅是因为您要指定一个暗示因果关系的模型,并不意味着SEM在横断面/非实验性研究中有助于建立因果关系。同样,完全值得考虑使用SEM分析纵向和/或实验设计的数据。
对于那些开始真正使用SEM的人:
- 在某些时候,您会倾向于随意指定相关残差,以努力改善模型的拟合度。别。至少不是没有很好的先验理由。通常,更大的样本或更简单的模型可以治愈。
- 避免对潜在变量使用标记变量识别方法(即,将第一个因子加载固定为1)。在大多数情况下,没有理由假设是这种情况时,该指示符作为潜变量的“金标准”指示符具有特权。请注意,这是大多数程序中的默认标识设置。
参考文献
博吉(Beaujean),AA(2014)。使用R的潜在变量建模:分步指南。纽约,纽约:Routledge。
布朗(TA)(2015)。应用研究人员的验证性因子分析(第二版)。纽约,纽约:吉尔福德出版社。
Finney,SJ和DiStefano,C.(2008年)。结构方程建模中的非正规和分类数据。在GR Hancock和RD Mueller(编辑)中,结构方程建模:第二门课程》(第269-314页)中。信息时代出版。
肯尼(Kenny,DA),凯西(Kashy),DA和库克(Wake),WL(2006)。二元数据分析。纽约,纽约:吉尔福德出版社。
Little,TD(2013)。纵向结构方程建模。纽约,纽约:吉尔福德出版社。
Little,TD,华盛顿州坎宁安,Shahar,G.,&Widaman,KF(2002)。打包或不打包:探索问题,权衡优劣。结构方程模型,9,151-173。
Rosseel,Y.(2012年)。lavaan:用于结构方程建模的R包。统计软件学报,48(2),1-36。
范登堡(Vandenberg,RJ)和兰斯(Lance),行政长官(2000)。对测量不变性文献的回顾和综合:对组织研究人员的建议,实践和建议。组织研究方法,3,4-70。