Questions tagged «factor-analysis»

因子分析是降维潜在变量技术,它用较少数量的连续连续变量(称为因子)代替了相互关联的变量。这些因素被认为是相互关系的原因。[对于确认因子分析,请使用标签“ confirmative-factor”。同样,不应将因子分析的术语“因子”与作为回归/ ANOVA的分类预测因子的“因子”相混淆。]

4
当主要目标是仅估计少量成分时,PCA或FA的最小样本量?
如果我有一个包含观察值和p个变量(维度)的数据集,并且通常n很小(n = 12 − 16),并且p的范围可能从很小(p = 4 − 10)到更大(p = 30 − 50)。nnnpppnnnn=12−16n=12−16n=12-16pppp=4−10p=4−10p = 4-10p=30−50p=30−50p= 30-50 我记得曾听说过应该大于p才能进行主成分分析(PCA)或因子分析(FA),但似乎在我的数据中可能并非如此。请注意,出于我的目的,我对PC2之后的任何主要组件都不感兴趣。nnnppp 问题: 当可以使用PCA时,最小样本量的经验法则是什么? 即使或n &lt; p,也可以使用前几台PC 吗?n=pn=pn=pn&lt;pn&lt;pn<p 有什么参考吗? 您的主要目标是使用PC1还是可能使用PC2,这有关系吗: 简单地以图形方式,或 作为综合变量,然后用于回归分析?

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
计算因子得分的方法,PCA或因子分析中的“得分系数”矩阵是什么?
根据我的理解,在基于相关性的PCA中,我们得到的是因子(在这种情况下,主成分)加载,而变量和因子之间的相关性就是什么。现在,当我需要在SPSS中生成因子得分时,我可以直接获取每个因子的每个受访者的因子得分。我还观察到,如果将“ 组件得分系数矩阵 ”(由SPSS生成)乘以标准化原始变量,则得到的分数得分与从SPSS获得的因子得分相同。 有人可以帮我了解如何计算“成分得分系数矩阵”或“因子得分系数矩阵”(通过它们可以计算因子或成分得分)吗?不同的计算因子评分方法在此矩阵上有何不同?

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
同一数据集上的PCA和探索性因子分析:差异和相似性;因子模型与PCA
我想知道对同一数据集执行主成分分析(PCA)和探索性因素分析(EFA)是否合乎逻辑。我听说专业人士明确建议: 了解分析的目的是什么,并选择PCA或EFA进行数据分析; 完成一项分析后,无需执行另一项分析。 我理解两者之间的动机差异,但是我只是想知道在同时解释PCA和EFA提供的结果时是否有错误?

3
利克特项目构成的问卷的因子分析
我曾经从心理学的角度分析项目。但是现在我正在尝试分析关于动机和其他主题的其他类型的问题。这些问题都是在李克特量表上。我最初的想法是使用因子分析,因为假设这些问题可以反映一些潜在的方面。 但是因子分析是否合适? 是否有必要验证每个问题的维度? 对李克特项目进行因子分析是否存在问题? 是否有关于如何对李克特和其他分类项目进行因子分析的好的论文和方法?

1
变量与PCA分量(在双图/加载图上)的正确关联度量是什么?
我FactoMineR用来将我的测量数据集减少到潜在变量。 变量地图上面很清楚我解释,但是当它涉及到的变量和组件1.纵观可变地图之间的关联我很困惑,ddp并且cov非常接近在地图的组件,ddpAbs是一个远一点远。但是,这不是相关性显示的内容: $Dim.1 $Dim.1$quanti correlation p.value jittAbs 0.9388158 1.166116e-11 rpvi 0.9388158 1.166116e-11 sd 0.9359214 1.912641e-11 ddpAbs 0.9327135 3.224252e-11 rapAbs 0.9327135 3.224252e-11 ppq5 0.9319101 3.660014e-11 ppq5Abs 0.9247266 1.066303e-10 cov 0.9150209 3.865897e-10 npvi 0.8853941 9.005243e-09 ddp 0.8554260 1.002460e-07 rap 0.8554260 1.002460e-07 jitt 0.8181207 1.042053e-06 cov5_x 0.6596751 4.533596e-04 ps13_20 -0.4593369 2.394361e-02 ps5_12 -0.5237125 …

2
根据PCA / FA中保留的几个主要成分或因素创建一个索引
我正在使用主成分分析(PCA)创建研究所需的索引。我的问题是我应该如何使用通过PCA计算出的保留主成分来创建单个索引。 例如,在使用PCA之后,我决定保留3个主要成分,并计算了这3个主要成分的得分。为每位受访者从这三个分数中创建一个索引的合适方法是什么? 将3个计算所得的分数相加得到一个复合值是否有意义? 还是将这3个分数取平均值才能获得这样的价值? 还是只保留第一个主成分(最强)并将其分数用作索引? 或者,可以使用因子分析(FA),但仍然存在相同的问题:如何基于多个因子得分创建单个索引?

1
“ Heywood Case”的确切定义是什么?
我一直在非正式地使用术语“ Heywood Case”来指代由于数值精度问题在线,有限响应迭代更新的方差估计变为负数的情况。(我使用的是Welford方法的一种变体来添加数据并删除较旧的数据。)我的印象是,它适用于因数值误差或建模误差而使方差估计值变为负数的任何情况,但同事我对这个术语的用法感到困惑。除了在因子分析中使用的Google搜索之外,它的搜索量很少,并且似乎是指负方差估计的结果。确切的定义是什么?最初的海伍德是谁?

1
“因子分析的基本定理”如何应用于PCA,或如何定义PCA载荷?
我目前正在查看用于“因子分析”(据我所知的PCA)的幻灯片集。 其中,得出了“因子分析的基本定理”,它声称可以使用因子加载矩阵()恢复进入分析的数据的相关矩阵():RR\bf RAA\bf A R=AA⊤R=AA⊤\bf R = AA^\top 但是,这使我感到困惑。在PCA中,“因子负载”矩阵由数据协方差/相关矩阵的特征向量矩阵给出(因为我们假设数据已经标准化,所以它们是相同的),每个特征向量都按比例缩放为具有长度一。此矩阵是正交的,从而这是在一般不等于。AA⊤=IAA⊤=I\bf AA^\top = IRR\bf R

1
寻找一个使用R对二分数据(二元变量)进行因子分析的示例的步骤
我有一些二分数据,只有二进制变量,老板要求我使用四分相关矩阵进行因子分析。以前,我已经能够自学如何根据此处的示例以及UCLA的统计站点和其他类似站点进行不同的分析,但我似乎无法通过示例进行二分法因素分析使用R的数据(二进制变量)。 我确实看到了 chl对一个有点类似的问题的回答,也看到了ttnphns的回答,但是我正在寻找更详细的内容,这是我可以使用的示例的一步。 这里有人通过使用R对二进制变量进行因子分析的示例知道这一步骤吗? 更新2012-07-11 22:03:35Z 我还应该补充一点,我正在使用一个已建立的,具有三个维度的工具,我们在其中添加了一些其他问题,现在希望找到四个不同的维度。此外,我们的样本量仅为,目前我们有19个项目。我将样本量和项目数与许多心理学文章进行了比较,我们绝对处于较低端,但无论如何我们都想尝试一下。虽然,这对于我正在寻找的逐步示例和以下caracal的示例并不重要n=153n=153n=153191919看起来确实很棒。早上,我将首先使用数据来解决问题。

5
用探索性因子分析解释R和SPSS之间的差异
我是计算机科学的研究生。我一直在为一个研究项目做一些探索性因素分析。我的同事(领导项目的人)使用SPSS,而我更喜欢使用R。这没关系,直到我们发现两个统计数据包之间存在重大差异。 我们使用主轴因子分解作为提取方法(请注意,我很清楚PCA和因子分析之间的区别,并且至少没有故意地没有使用PCA)。根据我的阅读,根据R文档,这应该对应于R中的“主轴”方法,以及SPSS中的“主轴分解”或“未加权最小二乘” 。我们使用一种倾斜旋转方法(特别是promax),因为我们期望相关因子,并且正在解释模式矩阵。 在R和SPSS中运行两个过程,存在主要差异。模式矩阵给出不同的负载。尽管这给变量关系带来了几乎相同的因素,但是在相应的载荷之间存在多达0.15的差异,这似乎比仅采用不同的提取方法和promax旋转实现的预期要大。但是,这并不是最惊人的差异。 由这些因素解释的累积方差在SPSS结果中约为40%,在R结果中约为31%。这是一个巨大的差异,这导致我的同事希望使用SPSS而不是R。我对此没有问题,但是相差很大,使我认为我们可能错误地解释了某些内容,这是一个问题。 当我们进行非加权最小二乘分解时,SPSS更加令人困惑,报告了不同类型的解释方差。初始特征值解释的方差的比例为40%,而平方负荷提取和(SSL)的解释方差的比例为33%。这使我认为初始特征值不是要查看的适当数字(我怀疑这是旋转之前解释的方差,尽管它太大了,超出了我的范围)。更令人困惑的是,SPSS还显示了旋转SSL,但没有计算出解释方差的百分比(SPSS告诉我,具有相关因子意味着我无法添加SSL来找到总方差,这与我所见的数学很有意义)。来自R的报告的SSL与这些都不匹配,R告诉我它描述了总方差的31%。R的SSL与轮换SSL最接近。来自原始相关矩阵的R的特征值确实与来自SPSS的初始特征值匹配。 另外,请注意,我一直在使用不同的方法,并且SPSS的ULS和PAF似乎最接近R的PA方法。 我的具体问题: 在使用因子分析实现的R和SPSS之间,我期望有多少差异? 我应该解释SPSS的哪些平方荷载总和,初始特征值,提取或旋转? 还有其他我可能会忽略的问题吗? 我对SPSS和R的呼叫如下: SPSS: FACTOR /VARIABLES &lt;variables&gt; /MISSING PAIRWISE /ANALYSIS &lt;variables&gt; /PRINT INITIAL KMO AIC EXTRACTION ROTATION /FORMAT BLANK(.35) /CRITERIA FACTORS(6) ITERATE(25) /EXTRACTION ULS /CRITERIA ITERATE(25) /ROTATION PROMAX(4). R: library(psych) fa.results &lt;- fa(data, nfactors=6, rotate="promax", scores=TRUE, fm="pa", oblique.scores=FALSE, max.iter=25)

2
评级分数与估计因子分数之和?
我很想收到有关在构建量表时何时使用“ 因子得分 ”而不是简单得分总和的建议。即“精炼”而不是“未精炼”的因素评分方法。来自DiStefano等。(2009; pdf),重点增加了: 因子得分计算方法主要有两类:精炼和非精炼。未精炼的方法是相对简单的累积过程,可提供有关个人在因素分布上的位置的信息。简单性使其具有一些吸引人的功能,即,未经改进的方法既易于计算,又易于解释。完善的计算方法使用更复杂的技术方法来创建因子得分。 与未改进的方法相比,它们更精确,更复杂,并提供标准化分数的估计值。 在我看来,如果目标是创建一个可以在研究和设置中使用的量表,那么所有量表项的简单总和或平均得分就很有意义。但是,可以说,目标是评估程序的治疗效果,而重要的对比在于样品(治疗组与对照组)之间。有什么理由使我们更喜欢因子得分来衡量总和或平均值? 要具体说明替代方案,请考虑以下简单示例: library(lavaan) library(devtools) # read in data from gist ====================================================== # gist is at https://gist.github.com/ericpgreen/7091485 # this creates data frame mydata gist &lt;- "https://gist.github.com/ericpgreen/7091485/raw/f4daec526bd69557874035b3c175b39cf6395408/simord.R" source_url(gist, sha1="da165a61f147592e6a25cf2f0dcaa85027605290") head(mydata) # v1 v2 v3 v4 v5 v6 v7 v8 v9 # 1 3 4 3 4 …

1
与PCA中完成的步骤相比,因素分析中完成的步骤
我知道如何执行PCA(主要成分分析),但是我想知道应该用于因子分析的步骤。 为了执行PCA,让我们考虑一些矩阵,例如:AAA 3 1 -1 2 4 0 4 -2 -5 11 22 20 我已经计算出其相关矩阵B = corr(A): 1.0000 0.9087 0.9250 0.9087 1.0000 0.9970 0.9250 0.9970 1.0000 然后,我完成了特征值分解[V,D] = eig(B),生成了特征向量: 0.5662 0.8209 -0.0740 0.5812 -0.4613 -0.6703 0.5844 -0.3366 0.7383 和特征值: 2.8877 0 0 0 0.1101 0 0 0 0.0022 PCA背后的总体思路是选择重要的分量,形成具有列特征向量的新矩阵,然后我们需要投影原始矩阵(在PCA中,它是零中心的)。但是在因子分析中,例如,我们应该选择具有大于奇异值的组件,然后我们还要使用因子旋转,请告诉我它是如何完成的?例如在这种情况下。111 请帮助我了解与PCA步骤相比的因素分析步骤。

1
在隐马尔可夫模型中选择“最佳”模型的标准
我有一个时间序列数据集,试图将其拟合隐马尔可夫模型(HMM),以便估计数据中的潜在状​​态数。我的伪代码是这样的: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } 现在,在通常的回归模型中,BIC倾向于支持最简约的模型,但对于HMM,我不确定这是在做什么。谁真的知道BIC标准倾向于哪种HMM?我也能够获得AIC和似然值。由于我试图推断出真实的州总数,因此其中一个标准是否比另一个标准“更好”?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.