Questions tagged «factor-analysis»

因子分析是降维潜在变量技术,它用较少数量的连续连续变量(称为因子)代替了相互关联的变量。这些因素被认为是相互关系的原因。[对于确认因子分析,请使用标签“ confirmative-factor”。同样,不应将因子分析的术语“因子”与作为回归/ ANOVA的分类预测因子的“因子”相混淆。]

2
探索性和确认性因素分析在确定结构独立性方面的差异
研究人员经常使用两项具有非常相似项目的度量标准,并争辩说它们测量的是不同的事物(例如,“我总是在汽车周围时会担心”;“我担心汽车”)。让我们从汽车量表中将假设的量度称为“汽车恐惧量度”和“焦虑量度”。如果他们确实评估了不同的潜在结构,或者它们测量的是相同的东西,我会对经验进行测试感兴趣。 我认为做到这一点的两种最佳方法是通过工厂探索性分析(EFA)或确认性因素分析(CFA)。我认为EFA会很好,因为它允许所有项目不受限制地自由加载。如果两个量表中的项目使用相同的因子,那么我可以得出结论,这些度量可能无法很好地评估不同的事物。但是,我还将看到CFA的好处,因为我将测试预定义的模型。例如,我可以比较一个模型的拟合度,在该模型中,所有项目都加载到一个因素上(即,他们没有评估不同的结构),或者项目被划分为预期的度量。我想,CFA的一个问题是它不会真正考虑替代模型(例如,三因素模型)。 为了讨论的目的,让我们也许考虑一下,我想把另外两种非常相似的方法(例如,汽车焦虑调查表和用于评估汽车恐惧的量表)加入其中! 我怎样才能最好地从统计角度确定两种措施是否评估了不同的结构?

2
如何结合因素分析,内部一致性和项目响应理论来减少项目数量?
我正在根据经验设计调查表,在此示例中,我将使用任意数字进行说明。就上下文而言,我正在开发一项心理调查表,旨在评估焦虑症患者中常见的思维模式。一个项目可能看起来像是“我需要反复检查烤箱,因为我不能确定烤箱已关闭 ”。 我有20个问题(5分李克特),可能由一个或两个因素组成(请注意,实际上我有将近200个问题,由10个量表组成,每个量表可能由两个因素组成)。我愿意删掉大约一半的项目,只针对两个因素之一提出10个问题。 我熟悉探索性因素分析(EFA),内部一致性(克朗巴赫(Cronbach's alpha))以及项目响应理论(IRT)中的项目特征曲线。我可以看到我将如何使用这些方法中的任何一个来确定哪些项目是任何单个范围内的“较差”。我很欣赏每种方法还可以回答不同的问题,尽管它们可能导致相似的结果,而且我不确定哪个“问题”最重要。 在开始之前,请确保我分别知道每种方法的用途。 使用EFA,我将确定因素的数量,并删除在其各自因素上负荷最小(假设为<.30)或在各个因素之间交叉负荷的项目。 使用内部一致性,我将删除“如果删除了项目,则alpha值更差”的项目。我可以在假设我的量表中有一个因子的情况下进行此操作,也可以在初始EFA之后执行该操作以识别因子的数量,然后对每个因子运行alpha。 使用IRT,我将删除(5 Likert)响应选项中未评估关注因素的项目。我会盯着项目特征曲线。我基本上是在寻找一个45度角的直线,该直线从李克特量表的选项1一直沿潜分数上升到5。我可以假设一个因素,也可以在初始 EFA之后执行该步骤以识别多个因素,然后为每个因素运行曲线。 我不确定要使用哪种方法才能最好地确定哪些项目是“最差的”。我从广义上使用最差的方法,以使该项目在可靠性或有效性方面都不利于测量,这两者对我来说都同样重要。大概我可以结合使用它们,但是我不确定如何使用。 如果要继续我现在所知道的并尽我所能,请执行以下操作: 进行全民教育,以确定许多因素。还要删除因其各自因素而导致加载不良的项目,因为我不希望加载不良的项目,无论它们在其他分析中的表现如何。 如果IFA中还有任何残留物,则也要进行IRT并从该分析中判断出还除去不良品。 只需报告Cronbach的Alpha,不要将其用作删除项目的手段。 任何一般准则将不胜感激! 这也是您可能会回答的特定问题的列表: 在基于因子负荷删除项目和基于Chronbach的alpha删除项目之间(在两种分析中使用相同的因子布局)之间的实际区别是什么? 我应该先做什么?假设我用一个因素进行EFA和IRT,并且都确定了应删除的不同项目,那么哪个分析应该优先? 尽管我将报告Chronbach的Alpha值,但我对进行所有这些分析并不感到困难。我觉得仅执行IRT会遗漏某些内容,对于EFA同样如此。

5
我可以使用PCA进行变量选择以进行聚类分析吗?
我必须减少变量数量以进行聚类分析。我的变量之间有很强的相关性,因此我考虑进行因素分析 PCA(主要成分分析)。但是,如果使用所得分数,则我的聚类不是很正确(与文献中以前的分类相比)。 题: 我可以使用旋转矩阵为每个组件/因子选择负荷最大的变量,而仅将这些变量用于聚类吗? 任何参考书目也将有所帮助。 更新: 一些澄清: 我的目标: 我必须通过SPSS使用两步算法进行聚类分析,但是我的变量不是独立变量,因此我考虑丢弃其中的一些变量。 我的数据集: 我正在研究100,000个案例的15个标量参数(我的变量)。一些变量具有高度相关性( Pearson)>0.9>0.9>0.9 我的疑问: 由于只需要独立变量,因此我想进行主成分分析(对不起:我在最初的问题中错误地谈到了因子分析,这是我的错误),并且只为每个组件选择负荷最大的变量。我知道PCA过程存在一些任意步骤,但是我发现此选择实际上类似于IT Jolliffe(1972&2002)提出的“ 方法B4 ”来选择变量,JR King和DA Jackson也在1999年提出了这种选择。 。 因此,我正在考虑以这种方式选择一些自变量子组。然后,我将使用这些组来运行不同的聚类分析,并将比较结果。

2
因子分析中的前因子最大化了什么?
在主成分分析中,前主成分是具有最大方差的正交方向。换句话说,选择第一主成分为最大方差的方向,选择第二主成分为与最大方差正交的方向,依此类推。ķķkkķkk 因子分析有类似的解释吗?例如,我认为前因子是最能解释原始相关矩阵的非对角分量的因子(例如,原始相关矩阵与由相关系数定义的相关矩阵之间的平方误差)因素)。这是真的吗(或者我们可以说类似的话)?ķkk

3
来自离散顺序反应的因子得分
有序离散变量时,有没有一种原则上的方法来估算因子得分。 我有序数,离散变量。如果我假设每个响应的基础是一个连续的,正态分布的变量,那么我可以计算一个n × n的多色相关矩阵。然后,我可以对该矩阵进行因子分析,并获取每个变量的因子负荷。nnnn×nn×nn\times n 我如何结合因素负荷和变量来估计因素得分。估算分数的典型方法似乎要求我将序数数据视为间隔。 我想我可能需要更深入地研究多元关联,以找出链接函数。

1
动态因素分析与状态空间模型
R中的MARSS软件包提供了用于动态因子分析的功能。在此程序包中,动态因子模型被编写为状态空间模型的一种特殊形式,并且它们假定遵循AR(1)过程的共同趋势。由于我对这两种方法不太熟悉,因此我提出了两个问题: 动态因子分析是状态空间模型的一种特殊形式吗?这两种方法有什么区别? 此外,动态因素分析并不一定假定AR(1)过程具有共同趋势。是否有任何软件包可以使通用趋势作为季节性ARIMA(或其他)过程?

2
因子旋转方法(方差最大,最小限度等)-名称含义是什么,这些方法是做什么的?
因子分析有几种旋转方法,例如方差,夸脱,最大等方,promax,oblimin等。我找不到任何将其名称与其实际数学或统计数据相关联的信息。为什么称其为“最大最大”或“最大最大”?轴或矩阵以哪种方式旋转,因此它们具有这样的名称? 不幸的是,它们大多数是1950年代至1970年代发明的,因此我无法联系他们的作者。

3
存在时提取更多因素总是更好吗?
与主成分分析不同,因子分析模型的解决方案不一定是嵌套的。也就是说,当仅提取第一个因子与第一个两个因子相同时,第一个因子的负载(例如)不一定相同。 考虑到这一点,请考虑以下情况:您具有一组高度相关的清单变量,并且(根据其内容的理论知识)应由单个因素来驱动。想象一下,探索性因素分析(无论您喜欢哪种度量标准:并行分析,卵石图,本征值> 1等)都强烈暗示着存在因素:主要因素较大,次要因素较小。您有兴趣使用清单变量和因子解来估计(即,获取因子得分)参与者对第一个因子的值。 在这种情况下,最好是:222 拟合因子模型以仅提取因子,并获得因子得分(等),或1个1个1 拟合因子模型以提取两个因子,获得因子的因子得分,但是扔掉/忽略第二个因子的得分? 对于哪种更好的做法,为什么呢? 关于这个问题有研究吗?

3
当协方差矩阵不是正定时,如何进行因子分析?
我有一个数据集,其中包含717个观测值(行),这些观测值由33个变量(列)描述。通过对所有变量进行z评分来标准化数据。没有两个变量是线性相关的()。我还删除了所有方差很小(小于)的变量。下图显示了相应的相关矩阵(以绝对值表示)。0.1r = 1r=1r=10.10.10.1 当我尝试factoran在Matlab中使用以下方法运行因子分析时: [Loadings1,specVar1,T,stats] = factoran(Z2,1); 我收到以下错误: The data X must have a covariance matrix that is positive definite. 你能告诉我问题出在哪里吗?是否由于使用的变量之间相互依存性较低?另外,我该怎么办? 我的相关矩阵:

3
因子分析的假设是什么?
我想检查我是否真的了解[经典,线性] 因子分析(FA),尤其是在FA之前(以及之后)所做的假设。 某些数据应首先进行关联,并且它们之间可能存在线性关系。在进行因子分析之后,数据是正态分布的(每对的双变量分布),并且因子之间(通用变量和特异性变量之间)没有相关性,一个因子的变量与其他因子的变量之间也没有相关性。 这是正确的吗?

7
数据缩减技术来识别国家类型
我教经济地理入门课程。为了帮助我的学生更好地了解当代世界经济中的国家类型以及对数据缩减技术的理解,我想构建一项作业,以创建不同国家类型的研究(例如,高收入高收入国家预期寿命长;高收入自然资源出口国的预期寿命中等;德国是第一类,而也门是第二类。这将使用可公开获得的开发计划署数据(如果我记得正确的话,其中包含有关不到200个国家的社会经济数据;抱歉,没有可用的区域数据)。 在进行此分配之前,将有另一个要求他们(使用相同的-主要是区间或比率水平-数据)检查这些相同变量之间的相关性。 我的希望是,他们将首先对不同变量之间的关系类型产生一种直觉(例如,预期寿命与[财富的各种指标]之间的正相关;财富与出口多样性之间的正相关)。然后,当使用数据缩减技术时,构成要素或因素将具有一定的直观意义(例如,构成要素/要素1体现了财富的重要性;构成要素/要素2体现了教育的重要性)。 鉴于这些是第二至四年级的学生,通常他们对分析性思维的了解通常比较有限,那么您建议哪种单一的数据缩减技术最适合第二次作业?这些是人口数据,因此推论统计(p-vlaues等)并不是真正必要的。


1
在因子分析中计算二元变量的皮尔逊相关性(而不是四项式)有什么危险?
我从事教育游戏的研究,目前的一些项目涉及使用BoardGameGeek(BGG)和VideoGameGeek(VGG)的数据来检查游戏设计元素之间的关系(例如“第二次世界大战”,“涉及掷骰子” )和这些游戏的玩家评分(例如,满分10分)。这些设计元素中的每个元素都与BGG或VGG系统中的标签相对应,因此每个元素本质上都是二分变量。游戏在数据库中为每个存在的标签提供1,为每个不存在的标签提供0。 这些标记有数十种,因此我想使用探索性因子分析(EFA)提出可管理数量的“类型”,以捕获游戏设计中的模式。咨询几个来源,据我所知,因为我有工作二元变量,我应该使用polychoric相关(四项,特别是在这里),而不是皮尔森用我的因素,即将到来的时候(也有其他的选择,喜欢的潜在特质分析-那些那里,但这是我现在正在探索的那个)。 出于好奇,我想出了两套因素,一套使用Pearson相关,另一套使用多色相关(每次使用相同数量的因素)。我的问题是,使用Pearson相关性计算出的因子比使用多色相关性计算出的因子更有意义并且更易于解释。换句话说,来自第一组因素的“类型”具有直觉意义,并且与我对游戏设计的理解相一致。第二组因素则不是这样。 一方面,我想确保我符合正在使用的测试的假设,即使这样做会使我的结果不太美观。另一方面,我认为因素分析和(更广泛的)模型构建的目标的一部分是想出一些有用的东西,而当我“违反规则”时,就会出现更多有用的信息。对有用模型的需求是否足以超过违反该检验假设的条件?使用Pearson相关而不是多选相关的结果到底是什么?

2
是否有理由不考虑探索性因素分析解决方案?
是否有任何理由不采用探索性因素分析解决方案? 很容易找到将正交解与斜解进行比较的讨论,我想我完全理解所有这些内容。同样,从我在教科书中可以找到的内容来看,作者通常从解释因子分析估计方法正确地解释了轮换的工作方式以及一些不同的选择。我还没有看到关于是否首先旋转的讨论。 另外,如果有人可以提供反对任何类型旋转的论点,这对多种估算因子的方法(例如,主成分法和最大似然法)都是有效的,我将不胜感激。

3
如何获得总体r平方变化的置信区间
为了简单的示例,假设有两个线性回归模型 模型1有三个预测,x1a,x2b,和x2c 模型2具有从模型1 3个预测和两个附加的预测x2a和x2b 有一个种群回归方程,其中模型1 解释的种群方差为,模型解释为 。模型2解释的种群中的增量方差为ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δ ρ2= ρ2(2 )- ρ2(1 )Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 我有兴趣获取\ Delta \ rho ^ 2的估计量的标准误差和置信区间Δ ρ2Δρ2\Delta\rho^2。虽然该示例分别涉及3个和2个预测变量,但我的研究兴趣涉及大量不同数量的预测变量(例如5个和30个)。我首先想到的是使用 Δ [R2一dĴ= r2一dj (2 )- - [R2一dĴ (1 )Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)}作为估计量并进行引导,但是我不确定是否会适当的。 问题 是Δ [R2一dĴΔradj2\Delta r^2_{adj}一个合理的估计Δ ρ2Δρ2\Delta \rho^2? 如何获得总体r平方变化的置信区间(即Δ ρ2Δρ2\Delta\rho^2)? 引导Δ ρ2Δρ2\Delta\rho^2是否适合计算置信区间? 任何对模拟或已发表文献的引用也将受到欢迎。 范例程式码 如果有帮助,我在R中创建了一个小的模拟数据集,可用于演示答案: …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.