当主要目标是仅估计少量成分时,PCA或FA的最小样本量?


27

如果我有一个包含观察值和p个变量(维度)的数据集,并且通常n很小(n = 12 16),并且p的范围可能从很小(p = 4 10)到更大(p = 30 50)。npnn=1216pp=410p=3050

我记得曾听说过应该大于p才能进行主成分分析(PCA)或因子分析(FA),但似乎在我的数据中可能并非如此。请注意,出于我的目的,我对PC2之后的任何主要组件都不感兴趣。np

问题:

  1. 当可以使用PCA时,最小样本量的经验法则是什么?
  2. 即使n < p,也可以使用前几台PC 吗?n=pn<p
  3. 有什么参考吗?
  4. 您的主要目标是使用PC1还是可能使用PC2,这有关系吗:

    • 简单地以图形方式,或
    • 作为综合变量,然后用于回归分析?

我记得读过有关因子分析的这类指南。您是否也对此感兴趣或仅对PCA感兴趣?另外,答案可能取决于您正在处理的数据类型,您是否有特定的应用领域?
晚会

1
感谢Gael在下面的评论和参考。现在,我需要了解FA和PCA之间的区别。:)
Patrick

3
这个问题已经在此站点上得到了广泛处理,请参阅例如stats.stackexchange.com/questions/1576/…stats.stackexchange.com/questions/612/…–
Gala

Answers:


21

您实际上可以测量样本量是否“足够大”。小样本量太小的一个症状就是不稳定。

引导或交叉验证您的PCA:这些技术会删除/交换一小部分样本,从而干扰您的数据集,然后为每个受干扰的数据集构建“代理模型”。如果代理模型足够相似(=稳定),则很好。您可能需要考虑到PCA的解决方案不是唯一的:PC可以翻转(将分数和相应的主要成分乘以)。您可能还需要使用Procrustes旋转,以获得尽可能相似的PC模型。1


谢谢cbeleites。您是否认为n值低至16会导致引导过度?要理解,我只是想通过运行许多PCA来寻求相对稳定性,而每次运行都留一个站点。
Patrick

在那种情况下,查看通过删除一个样本而受到干扰的所有16个模型(甚至在遗漏2个样本的所有120个模型中)当然是可行的。我觉得跟小我可能会去这样一个系统的CV式的方法。ñ
cbeleites支持Monica 2012年

23

对于因子分析(不是主成分分析),已有相当多的文献质疑观察数的一些旧经验法则。传统建议-在心理测验中至少-将具有至少每个变量的观察(与X典型地从任何地方520)因此,在任何情况下Ñ » pxx520np

可以在http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis中找到相当详尽的概述,其中包含许多参考资料

但是,最近的模拟研究得出的主要结论可能是,结果的质量变化很大(取决于社区,因素数量或因素对变量的比率等),因此考虑变量与观测值的比例不是决定所需观测值数量的好方法。如果情况是吉利的,您也许能够摆脱比旧指南所建议的少得多的观察结果,但是即使在某些情况下,即使是最保守的指南也过于乐观。例如,Preacher和MacCallum(2002)在极小的样本量且情况下获得了良好的结果,但是Mundfrom,Shaw&Ke(2005)发现在某些情况下,样本量n > 100 pp>nn>100p是必要的。他们还发现,如果基本因素的数量保持不变,则更多的变量(而不是更少,如观察值与变量之比所基于的准则所暗示的那样)可能会在少量观察值样本下产生更好的结果。

相关参考:

  • Mundfrom,DJ,Shaw,DG和Ke,TL(2005)。进行因子分析的最小样本量建议。国际测试杂志, 5(2),159-168。
  • 传教士,KJ和麦卡勒姆,RC(2002)。行为遗传学研究中的探索性因素分析:小样本量的因素恢复。行为遗传学, 32(2),153-161。
  • de Winter,JCF,Dodou,D.和Wieringa,PA(2009)。具有小样本量的探索性因素分析。多元行为研究, 44(2),147-181。

5
(+1)这是另一篇使用模拟和真实数据集的论文,该论文表明N / p经验法则在实践中表现不佳,并且提供了在EFA- -控制用于各种质量标准-作为因子的数量和项目在精神病尺度的数目(和任选信度的α95%CI的半宽度,根据Feldt公式)的函数:样品量要求精神病学量表的内部验证 Int J Methods Psychiatr Res。2011年12月; 20(4):235-49。
chl

1

MVA不等式背后的想法很简单:PCA等效于估计变量的相关矩阵。您正在尝试猜测pp-1个2 (对称矩阵)系数来自 ñp数据。(这就是为什么您应该有n >> p。)

等效性可以这样看:每个PCA步骤都是一个优化问题。我们试图找到表示最大方差的方向。即:

一种X一种一世ŤΣ一种一世

哪里 σ 是协方差矩阵。

在约束下:

一种一世Ť一种一世=1个
(正常化)

一种一世Ť一种Ĵ=0
(对于 Ĵ<一世,正交性以及之前的组件)

这些问题的解决方案显然是的特征向量 Σ associated to their eigenvalues. I have to admit that I don't remember the exact formulation, but eigenvenctors depends on the coefficients of σ. Modulo normalisation of the variables, covariance matrix and correlation matrix are the same thing.

Taking n = p is more or less equivalent to guess a value with only two datas... it's not reliable.

There's no rules of thumbs, just keep in mind that PCA is more or less the same thing as guessing a value from 2np values.


Could you be more specific about the sense in which PCA is "equivalent" to estimating a correlation matrix? Suppose I stop my PCA after k principal components. That requires estimating k eigenvalues and (p1)+(p2)++(pk) independent eigenvector coefficients, all totaling less than pk parameters, which could be quite a bit less than p(p1)/2.
whuber

The point is you are calculating (p-k) coefficients of eigenvectors from p(p-1)/2 coefficients of the matrix. For a random matrix, I don't think there is a way to "skip" some coefficients calculating eigenvectors/eigenvalues.
lcrmorin

Sure there is: the usual algorithms find the eigenvalues and the eigenvectors one at a time, from the largest eigenvalue on down. Besides, this is not a computational issue, but one of counting the number of estimated values--unless I misread your answer?
whuber

1

I hope this might be helpful:

for both FA and PCA

''The methods described in this chapter require large samples to derive stable solutions. What constitutes an adequate sample size is somewhat complicated. Until recently, analysts used rules of thumb like “factor analysis requires 5–10 times as many subjects as variables.” Recent studies suggest that the required sample size depends on the number of factors, the number of variables associated with each factor, and how well the set of factors explains the variance in the variables (Bandalos and Boehm-Kaufman, 2009). I’ll go out on a limb and say that if you have several hundred observations, you’re probably safe.''

Reference:

Bandalos, D. L., and M. R. Boehm-Kaufman. 2009. “Four Common Misconceptions in Exploratory Factor Analysis.” In Statistical and Methodological Myths and Urban Legends, edited by C. E. Lance and R. J. Vandenberg, 61–87. New York: Routledge.

from "R in Action" by Robert I. Kabacoff, very informative book with good advises covering almost all statistical tests.


2
It seems you are just plugging a book and rehashing some points made before based on a secondary or tertiary source. This does not seem very useful. Could you at least provide the full reference for Bandalos and Boehm-Kaufman, 2009?
Gala
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.