PCA中的低方差分量,它们真的只是噪声吗?有什么方法可以测试吗?


18

我正在尝试决定是否保留PCA的组件。根据特征值的大小,有无数的标准,例如在此处此处进行描述和比较。

但是,在我的应用程序中,我知道与最大(st)特征值相比,最小(最大)特征值会很小,并且基于幅度的标准都将拒绝最小(最大)特征值。这不是我想要的。我感兴趣的是:在某种意义上,是否有已知方法考虑到小特征值的实际对应部分:是真的“所有”教科书中都暗含了“只是”噪声,还是存在某种“潜在”东西?还剩利息吗?如果确实是噪声,则将其除去,否则不管特征值的大小如何都应将其保留。

对于我找不到的PCA中的组件,是否存在某种已建立的随机性或分布测试?还是有人知道这是一个愚蠢的主意吗?

更新资料

在两个用例中,组件的直方图(绿色)和法线近似值(蓝色):一次可能是真正的噪声,一次可能不是“仅”噪声(是的,值很小,但可能不是随机的)。在两种情况下,最大的奇异值都是〜160,最小的奇异值是0.0xx-对于任何截止方法来说都太小了。

我正在寻找的是一种正规化此方法的方法...

可能真的是“只是”噪音 可能不是噪音,但可能包含有趣的位


2
您引用的许多测试都具有您所要求的属性:它们试图将“噪声”与“信号”区分开。
ub

2
我最近对一个类似的问题感兴趣,但是在特定情况下,当您对每个数据点进行多次测量时,我会对此感兴趣。请参见每个数据点有多个样本时选择PCA组件的数量。也许也适用于您的情况?
变形虫说恢复莫妮卡

在PC上使用分布测试来确定其随机性声音是一个非常有趣的想法(我从未见过应用)。在ICA中进行了类似的操作,专门寻找最大的非高斯分量。进行PCA,然后丢弃“太高斯”的组件具有ICA风格,并且可能实际上起作用!
变形虫说恢复莫妮卡2014年

Answers:


20

测试小主成分(PC)随机性的一种方法是将其视为信号而不是噪声:即,尝试用它预测另一个感兴趣的变量。这本质上是主成分回归(PCR)

[R2中号小号Ë

  • 使用总共9台PC的1、3、4、6、7和8的化学工程模型Smith&Campbell,1980
  • 使用PC中的8、2和10(按重要性顺序)的季风模型Kung&Sharif,1980年
  • 使用6台PC中的4和5的经济模型(Hill,Fomby,&Johnson,1977)

上面列出的示例中的PC根据其特征值的排序大小进行编号。Jolliffe(1982)描述了一个云模型,其中最后一个部分贡献最大。他得出结论:

上面的例子表明,不必为了使最后几个主成分在主成分回归中很重要而发现晦涩或奇怪的数据。实际上,这样的例子在实践中可能相当普遍。希尔等。(1977)对选择主要成分的策略进行了彻底而有用的讨论,这些策略应该永远掩盖仅基于方差大小的选择思想。不幸的是,这似乎没有发生,并且这个想法现在可能比20年前更加广泛。

小号小号

p-1个ÿ

X

我要感谢@Scortchi,他用一些非常有帮助的评论纠正了我对PCR中PC选择的误解,其中包括:“ Jolliffe(2010)评论了其他选择PC的方法。” 此参考可能是寻找更多想法的好地方。

参考文献

-甘斯特(RF)和梅森(RL)(1977)。回归中的有偏估计:使用均方误差的评估。美国统计协会杂志,72(359),616–628。
-哈迪(AS)和凌(RF)(1998)。关于使用主成分回归的一些注意事项。美国统计学家,52(1),15-19。取自http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf
-霍金斯,DM(1973)。通过主成分分析研究替代回归。应用统计,22(3),275–286。
-RC的Hill,TB的Fomby和SR的Johnson(1977)。主成分回归的成分选择规范。统计学中的通信–理论与方法,6(4),309–334。
-H·霍特林(1957)。新型多元统计方法与因子分析的关系。英国统计心理学杂志,10(2),69–79。
-杰克逊(E.)(1991)。主要组件的用户指南。纽约:威利。
-Jolliffe,IT(1982)。注意回归中主成分的使用。应用统计,31(3),300-303。取自http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf
-Jolliffe,IT(2010)。主成分分析(第二版)。施普林格。
-Kung,EC和Sharif,TA(1980)。预测印度夏季风爆发的前期高空条件。应用气象学报,19(4),370–380。取自 http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf
-洛特(WF)(1973)。最小二乘回归的主成分约束的最佳集合。统计学中的通信–理论与方法,2(5),449–464。
-梅森(RL)和冈斯特(RF)(1985)。在回归中选择主要成分。统计与概率快报,3(6),299–301。
-Massy,WF(1965)。探索性统计研究中的主成分回归。美国统计协会杂志,60(309),234–256。取自http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf
-Smith,G.,&Campbell,F.(1980)。对一些岭回归方法的批评。美国统计协会杂志,75(369),74-81。取自https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf


4
...并且没有任何保证可以保证您解决问题所需要的影响大于仅是噪声的其他影响。眼前的问题。我已经看到数据,其中95%的方差是由于某些物理影响而产生的噪声...
cbeleites支持Monica 2014年

3
非常不错的评论,但是(很抱歉再次打扰)Hadi&Ling的步伐(根据与响应的密切关系来选择要保留在回归中的PC)与根据与响应的密切关系来选择原始预测变量一样危险。交叉验证是必不可少的,最好缩小。我个人更希望明智地使用PCA和主题知识来指导预测变量的数据减少,对响应视而不见,例如,使用测量相同事物或由可变聚类确定的预测变量组的第一台PC。
Scortchi-恢复莫妮卡

2
+1(很久以前)对此问题的回答,但是现在回顾此线程之后,我必须说,这个问题几乎根本无法回答原始问题:OP正在询问是否可以对组件使用任何分布测试来判断他们的随机性。另请参阅我对OP的最后评论。
变形虫说恢复莫妮卡2014年

2

添加到@Nick Stauner的答案中,当您处理子空间集群时,PCA通常是一个较差的解决方案。

使用PCA时,人们最关心的是特征值最高的特征向量,特征值表示数据“最大程度地”拉伸的方向。如果您的数据由小的子空间组成,PCA将郑重地忽略它们,因为它们对整体数据差异的贡献不大。

因此,小的特征向量并不总是纯噪声。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.