Answers:
这是Jolliffe (1982)的一段很酷的摘录,在我以前对非常相似的问题的回答中没有提到:“ PCA中的低方差成分,它们真的只是噪声吗?有没有办法对其进行测试? ”它非常直观。
假设需要预测云基础高度,这是机场的一个重要问题。测量了各种气候变量,包括表面温度T s和表面露点T d。在此,T d是表面空气被水蒸气饱和的温度,差T s - T d是表面湿度的量度。现在T s,T d通常是正相关的,因此对气候变量的主成分分析将具有与T高度相关的高方差成分。,以及与 T s - T d类似相关的低方差分量。但是 H与湿度有关,因此与 T s - T d有关,即与低方差而不是高方差成分有关,因此,拒绝低方差成分的策略对 H的预测较差。
由于对任何其他气候变量的未知影响(也已测量并包括在分析中),因此对该示例的讨论必定含糊不清。但是,它显示了一个物理上合理的情况,在该情况下,因变量将与低方差成分相关,从而确认了文献中的三个经验示例。
此外,已经对基于云的示例进行了基于加的夫(威尔士)机场1966-73年期间数据的测试,其中还包括一个额外的气候变量海面温度。结果基本上如上所述。最后一个主成分约为 ,它仅占总变化的0·4%。但是,在主成分回归中,它很容易成为H的最重要预测因子。 [强调已添加]
第二段最后一句中提到的三个文献例子是我在对链接问题的回答中提到的三个例子。
参考
Jolliffe,IT(1982)。注意回归中主成分的使用。应用统计,31(3),300-303。取自http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf。
如果您有R,则crabs
MASS包中的数据中有一个很好的例子。
> library(MASS)
> data(crabs)
> head(crabs)
sp sex index FL RW CL CW BD
1 B M 1 8.1 6.7 16.1 19.0 7.0
2 B M 2 8.8 7.7 18.1 20.8 7.4
3 B M 3 9.2 7.8 19.0 22.4 7.7
4 B M 4 9.6 7.9 20.1 23.1 8.2
5 B M 5 9.8 8.0 20.3 23.0 8.2
6 B M 6 10.8 9.0 23.0 26.5 9.8
> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000
前两个PC可以“解释”超过98%的方差,但实际上,如果您实际上已经收集了这些测量值并进行了研究,那么第三台PC将非常有趣,因为它与螃蟹的种类密切相关。但是它被PC1(似乎与螃蟹的大小相对应)和PC2(似乎与螃蟹的性别相对应)所淹没。
这是根据我的经验(化学计量学,光学/振动/拉曼光谱法)得出的两个例子:
我最近获得了光谱数据,其中原始数据的总方差的99%以上是由于背景光的变化(聚光灯在测量点上或多或少强烈,荧光灯开/关,或多或少的云太阳)。在使用已知影响因子的光谱进行背景校正(通过PCA提取原始数据;进行了额外的测量以涵盖这些变化)之后,我们感兴趣的效果出现在PC 4和5中
。PC1和3在其中由于测量样品中的其他影响,PC 2与测量期间仪器尖端的温度升高有关。
在另一测量中,使用了对于所测量的光谱范围没有色彩校正的透镜。色差导致光谱失真,约占光谱的百分之十。预处理数据总方差的90%(主要在PC 1中捕获)。
对于这些数据,我们花了相当长的时间才知道确切发生了什么,但是切换到更好的物镜解决了以后进行实验的问题。
(我无法显示详细信息,因为这些研究尚未发表)
我注意到,在协方差矩阵上执行PCA时,方差低的PC最有用,在协方差矩阵中,基础数据以某种方式进行聚类或分组。如果一组中的平均方差比其他组低得多,则最小的PC将由该组主导。但是,您可能出于某些原因不想丢弃该组的结果。
在金融领域,股票收益每年约有15-25%的标准偏差。从历史上看,债券收益率的变化要低得多。如果对股票收益和债券收益率变化的协方差矩阵执行PCA,则顶部PC将全部反映股票的方差,而最小PC将反映债券的方差。如果您扔掉解释债券的个人电脑,那么您可能会遇到麻烦。例如,债券可能具有与股票不同的分布特征(细尾,不同的时变方差属性,不同的均值回归,协整等)。根据情况,这些对于建模可能非常重要。
如果对相关矩阵执行PCA,则可能会在顶部附近看到更多PC在解释键。