使用AIC(或BIC)选择PCA模型


12

我想使用Akaike信息准则(AIC)选择要在PCA中提取的适当数量的因子。唯一的问题是我不确定如何确定参数数量。

考虑一个矩阵,其中代表变量数,代表观察数,这样。由于协方差矩阵是对称的,因此的最大似然估计可以将AIC中的参数数量设置为。X Ñ Ť X Ñ 0 Σ Σ Ñ Ñ + 1 T×NXNTXN(0,Σ)ΣN(N+1)2

可选地,在PCA,可以提取第一特征向量和特征值,叫他们和,然后计算 ,其中是平均残差。据我统计,如果你有因素,那么你会在参数,在参数,和参数。Σ β ˚F Λ ˚F Σ = β ˚F Λ ˚F β ' ˚F + σ 2 - [R σ 2 - [R ˚F ˚F Λ ˚F Ñ ˚F β ˚F 1 σ 2 - [RfΣβfΛf

Σ=βfΛfβf+Iσr2
σr2ffΛfNfβf1σr2

这种方法正确吗?随着因子数量增加到,似乎它将比最大似然方法导致更多的参数。N


1
Nf夸大了参数:由于特征向量相互正交,因此存在冗余。
ub

10
第一个特征向量具有自由参数。正交性条件将第二个特征向量限制为与第一个正交的超空间,仅需要N - 1个参数。每个连续的特征向量都需要比前一个少一个的参数。在极限Ñ特征向量你丢弃σ 2 - [R (因为它现在零),得到Ñ + ñ - 1 + + 1 = Ñ Ñ + 1 / 2的参数在TOTO,NN1Nσr2N+(N1)++1N(N+1)/2与您的第一个参数计数一致。
whuber

1
@ A.Donda的情况是模糊的:让我们假设你已经还指出,多重每个特征值,这些多重的总和为ñ 允许PCA找到正交变换,我们将使用N N 1 / 2个参数来确定它。但是每个本征空间的稳定器是维数为n i的正交基团因此,每个消除n in in1,n2,,ns,N.N(N1)/2ni.参数,剩下 N N 1 / 2 s i = 1 n in i1 / 2参数用于旋转。小号特征值提供剩余的参数。ni(ni1)/2
N(N1)/2i=1sni(ni1)/2
s
whuber

1
(我应该补充一点,此计数在问题上的应用是可疑的:即使可能偶然发现某些具有较高重乘性的特征值,PCA也会使用所有参数。它永远不会获得大于1的多重性。)N(N1)/21
whuber

1
@whuber,谢谢!我的问题是由以下情况引起的:我在特征值约束下估算协方差矩阵。
A. Donda

Answers:


5

logp(D|k)kD

显然,这是基于贝叶斯观点的,而不是基于AIC使用的信息论标准(KL-散度)。

关于原始的“参数编号确定”问题,我也认为@whuber的注释具有正确的直觉。


我在不同大小的随机矩阵上玩AIC与AICc。AICc似乎工作得更好。这些参考文献看起来不错,但是我还没有机会消化。
约翰

6

可以使用Horn的并行分析(PA)轻松地在PCA中选择“适当”数量的组件。论文表明,该标准始终优于经验法则,例如肘部标准法或凯撒法则。R包“ paran”具有PA的实现,只需单击几次鼠标即可。

当然,保留多少组件取决于数据缩减的目标。如果您只希望保留“有意义的”方差,则PA将提供最佳的降低。但是,如果希望最大程度地减少原始数据的信息丢失,则应保留足够的分量以覆盖95%的解释方差。尽管对于高维数据集,降维仍将是可观的,但这显然将比PA保留更多的组件。

关于PCA作为“模型选择”问题的最后一点说明。我完全不同意彼得的答复。有许多论文将PCA重构为回归型问题,例如稀疏PCA,稀疏概率PCA或ScotLASS。在这些“基于模型”的PCA解决方案中,加载是可以使用适当的惩罚项设置为0的参数。在这种情况下,大概也可以为所考虑的模型计算AIC或BIC类型统计信息。

从理论上讲,此方法可以包括一个模型,其中两个PC不受限制(所有加载都不为零),而PC1不受限制并且PC2的所有加载都设置为0。这等效于推断PC2是否冗余。总体上。

参考文献(PA)

  • Dinno,A.(2012年)。paran:Horn的主要成分/因子测试。R软件包版本1.5.1。http://CRAN.R-project.org/package=paran
  • Horn JL1965。因素分析中的因素数量论和检验。Psychometrika。30:179–185
  • Hubbard,R.&Allen SJ(1987)。主成分提取替代方法的经验比较。商业研究杂志,15,173-190。
  • Zwick,WR&Velicer,WF1986。确定保留零件数量的五个规则的比较。心理公告。99:432–442

欢迎使用该网站@BenM。从您的回答中,我认为有您的陪伴将是一件很好的事情(尽管我对PCA的了解不多,无法评估您的主张)。您注意到一个问题,这些职位已经确立,您能否列出一些有代表性的出版物,让感兴趣的读者可以找到更多详细信息?
gung-恢复莫妮卡

-1

AIC专为型号选择而设计。这实际上不是模型选择问题,也许您最好采用其他方法。另一种选择是指定所解释的某个总方差百分比(例如75%),如果达到该百分比,则在该百分比达到75%时停止。


1
我根据因素的数量在不同的模型之间进行选择(因素为1的模型与因素为2的模型,等等)。方差百分比的问题主要是,它忽略了估计附加特征向量的成本,尤其是在观察次数少于变量数目时。AIC非常适合概率PCA方法。
约翰(John)

3
迈克尔,您能准确解释为什么这不是选型问题吗?看起来约翰显然已将其表述为一。
ub

@whuber什么是统计模型?在我看来,确定用于表示变量Y中方差x%的主成分的数量并不是在选择模型。我也不会将主成分视为模型参数。
Michael R. Chernick

2
XiN(0,Σ)Σσi2ρ|ρ|=1θλ1λ2λ2=0。两种观点都测试了完美的相关性(共线性)。他们只是使用不同的参数化。如果允许第一个作为模型,则必须允许第二个作为模型。
ub

-3

AIC在这里不合适。您不是要在具有不同数量参数的模型之间进行选择-主成分不是参数。

有多种方法可以从因子分析或主成分分析中确定因子或成分的数量,例如卵石测试,特征值> 1等。但是真正的检验是实质性的:什么数量的因子才有意义?查看因素,考虑权重,找出最适合您数据的权重。

像统计中的其他内容一样,这不是很容易自动化的事情。


4
ΣΣ

1
@协方差矩阵的参数可能但不是模型参数。在这方面,我支持彼得。
Michael R. Chernick

3
彼得,您究竟在“模型参数”和“参数”之间有什么区别?我不知道任何此类事情,因此希望您能对此有所了解。如果您的目的是找到对多元协方差的简约描述,那么它们不构成“模型”参数吗?
ub

3
nmn

1
谢谢(你的)信息。时间序列是我所不了解的统计领域之一。
彼得·弗洛姆
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.