Questions tagged «factor-analysis»

因子分析是降维潜在变量技术,它用较少数量的连续连续变量(称为因子)代替了相互关联的变量。这些因素被认为是相互关系的原因。[对于确认因子分析,请使用标签“ confirmative-factor”。同样,不应将因子分析的术语“因子”与作为回归/ ANOVA的分类预测因子的“因子”相混淆。]



6
是否有充分的理由使用PCA代替EFA?另外,PCA可以代替因子分析吗?
在某些学科中,没有任何理由就系统地使用PCA(主要成分分析),而PCA和EFA(探索性因素分析)被视为同义词。 因此,我最近使用PCA分析了量表验证研究的结果(7点Likert量表中的21个项目,假设由3个因子组成,每个7个项目),而审阅者问我为什么选择PCA而不是EFA。我读到了这两种技术之间的差异,在您的大多数回答中,似乎EFA都优于PCA。 您是否有充分的理由说明为什么PCA会是更好的选择?它可以提供什么好处?在我看来,为什么它是一个明智的选择?


8
PCA后跟旋转(例如varimax)是否仍然是PCA?
我试图重现从SPSS一些研究(使用PCA)在R.根据我的经验,principal() 功能从包psych是差一点的唯一功能(或者,如果我没记错的话,死的)来匹配输出。为了匹配与SPSS中相同的结果,我必须使用parameter principal(..., rotate = "varimax")。我见过一些论文谈论它们如何进行PCA,但是基于SPSS的输出和旋转的使用,听起来更像是因子分析。 问题:即使旋转(使用varimax),PCA还是PCA吗?我的印象是,这实际上可能是因子分析……如果不是这样,我遗漏了哪些细节?

2
当PCA解释方差时,因子分析如何解释协方差?
这是Bishop的“模式识别和机器学习”书第12.2.4节“因素分析”中的一句话: 根据突出显示的部分,因子分析捕获矩阵变量之间的协方差WWW。我想知道如何? 这就是我的理解。假设是观察到的维变量,是因子加载矩阵,是因子得分向量。然后我们有即 ,中的每一列都是一个因子加载向量 正如我所写,有xxxpppWWWzzzx=μ+Wz+ϵ,x=μ+Wz+ϵ,x=\mu+Wz+\epsilon,⎛⎝⎜⎜x1⋮xp⎞⎠⎟⎟=⎛⎝⎜⎜μ1⋮μp⎞⎠⎟⎟+⎛⎝⎜|w1|…|wm|⎞⎠⎟⎛⎝⎜⎜z1⋮zm⎞⎠⎟⎟+ϵ,(x1⋮xp)=(μ1⋮μp)+(||w1…wm||)(z1⋮zm)+ϵ,\begin{align*} \begin{pmatrix} x_1\\ \vdots\\ x_p \end{pmatrix} = \begin{pmatrix} \mu_1\\ \vdots\\ \mu_p \end{pmatrix} + \begin{pmatrix} \vert & & \vert\\ w_1 & \ldots & w_m\\ \vert & & \vert \end{pmatrix} \begin{pmatrix} z_1\\ \vdots\\ z_m \end{pmatrix} +\epsilon, \end{align*}WWWwi=⎛⎝⎜⎜wi1⋮wip⎞⎠⎟⎟.wi=(wi1⋮wip).w_i=\begin{pmatrix}w_{i1}\\ \vdots\\ w_{ip}\end{pmatrix}.WWW米mmm列表示正在考虑因素。mmm 现在,重点在于,根据突出显示的部分,我认为每列的负载都说明了观测数据中的协方差,对吗?wiwiw_i 例如,让我们看一下第一个加载向量,对于,如果,和,则我想说和高度相关,而似乎与它们不相关,对吗? 1 ≤ 我,Ĵ ,ķ ≤ p 瓦特1 …

3
PCA或FA中的分数或负荷符号是否有意义?我可以反转标志吗?
我使用两个不同的函数(prcomp和)对R进行了主成分分析(PCA),princomp并观察到PCA分数的符号不同。怎么会这样? 考虑一下: set.seed(999) prcomp(data.frame(1:10,rnorm(10)))$x PC1 PC2 [1,] -4.508620 -0.2567655 [2,] -3.373772 -1.1369417 [3,] -2.679669 1.0903445 [4,] -1.615837 0.7108631 [5,] -0.548879 0.3093389 [6,] 0.481756 0.1639112 [7,] 1.656178 -0.9952875 [8,] 2.560345 -0.2490548 [9,] 3.508442 0.1874520 [10,] 4.520055 0.1761397 set.seed(999) princomp(data.frame(1:10,rnorm(10)))$scores Comp.1 Comp.2 [1,] 4.508620 0.2567655 [2,] 3.373772 1.1369417 [3,] 2.679669 -1.0903445 [4,] …
37 r  pca  factor-analysis 

1
在因素分析/ PCA中进行旋转的直观原因是什么?如何选择合适的旋转?
我的问题 在因子分析(或PCA中的组件)中进行因子轮换的直观原因是什么? 我的理解是,如果变量几乎均等地加载到顶部组件(或因子)中,那么显然很难区分这些组件。因此,在这种情况下,可以使用旋转来更好地区分组件。它是否正确? 轮换会有什么结果?这会影响什么? 如何选择合适的旋转度?有正交旋转和倾斜旋转。如何在这些之间进行选择,这种选择的含义是什么? 请用最少的数学方程式直观地解释。分散的答案中很少有数学上很繁重的内容,但出于直观原因和经验法则,我正在寻找更多答案。

3
相关或协方差的PCA:相关的PCA是否有意义?[关闭]
在主成分分析(PCA)中,可以选择协方差矩阵或相关矩阵来查找成分(从它们各自的特征向量中)。由于两个矩阵之间的特征向量不相等,因此得出不同的结果(PC加载和得分)。我的理解是,这是由于以下事实导致的:原始数据矢量及其标准化无法通过正交变换进行关联。在数学上,相似的矩阵(即通过正交变换关联)具有相同的特征值,但不一定具有相同的特征向量。XXXZZZ 这在我的脑海中带来了一些困难: 如果您可以针对同一起始数据集获得两个不同的答案,而两者都试图实现相同的目标(=最大方差的寻找方向),那么PCA真的有意义吗? 使用相关矩阵方法时,在计算PC之前,将通过其各自的标准偏差对每个变量进行标准化(缩放)。如果事先已经对数据进行了不同的缩放/压缩,那么找到最大方差方向仍然有意义吗?我知道基于相关的PCA非常方便(标准化变量是无量纲的,因此可以添加它们的线性组合;其他优点也基于实用主义),但这是正确的吗? 在我看来,基于协方差的PCA是唯一真正正确的方法(即使变量的方差相差很大),并且每当无法使用此版本时,也不应使用基于相关性的PCA。 我知道有这个线程:相关性或协方差的PCA?-但它似乎只专注于找到一种实用的解决方案,该解决方案也可能不是代数正确的解决方案。

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
因子分析中的最佳因子提取方法
SPSS提供了几种因子提取方法: 主成分(根本不是因子分析) 未加权最小二乘 广义最小二乘法 最大似然 主轴 阿尔法分解 图像分解 忽略第一种方法,不是因素分析(而是主成分分析,PCA),哪种方法是“最佳方法”?不同方法的相对优势是什么?基本上,我将如何选择使用哪一个? 另一个问题:是否应该从这6种方法中获得相似的结果?


1
是否有针对序数或二进制数据的因子分析或PCA?
我已经完成了主成分分析(PCA),探索性因素分析(EFA)和确认性因素分析(CFA),并用李克特量表(5级答复:无,有,有..)将数据视为连续数据。变量。然后,使用Lavaan,我重复了CFA,将变量定义为分类变量。 我想知道当数据本质上是序数时,什么类型的分析适用于PCA和EFA?而当二进制。 我也将对可以轻松实现此类分析的特定软件包或软件提出建议。

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.