PCA的示例，方差低的PC是“有用的”

24

通常，在主成分分析（PCA）中，使用前几台PC，而丢弃低方差PC，因为它们不能解释数据的大部分变化。

但是，是否存在一些示例，这些示例中的低偏差PC有用（即在数据上下文中使用过，有直观的解释等）并且不应丢弃？

pca

— 麦可
source

5

很少几个。参见PCA，组件的随机性？甚至可能是重复的，但是标题更清晰（因此可能更容易通过搜索找到），因此即使这样关闭也不要删除它。

— Nick Stauner 2014年

18

这是Jolliffe ^_（1982）的一段很酷的摘录，在我以前对非常相似的问题的回答中没有提到：“ PCA中的低方差成分，它们真的只是噪声吗？有没有办法对其进行测试？ ”它非常直观。

$\quad$ 假设需要预测云基础高度，这是机场的一个重要问题。测量了各种气候变量，包括表面温度和表面露点。在此，是表面空气被水蒸气饱和的温度，差是表面湿度的量度。现在通常是正相关的，因此对气候变量的主成分分析将具有与高度相关的高方差成分。 $H$ $T_s$ $T_d$ $T_d$ $T_s-T_d$ $T_s,T_d$ ，以及与类似相关的低方差分量。但是与湿度有关，因此与，即与低方差而不是高方差成分有关，因此，拒绝低方差成分的策略对预测较差。 $T_s+T_d$ $T_s-T_d$ $H$ $T_s-T_d$ $H$
$\quad$ 由于对任何其他气候变量的未知影响（也已测量并包括在分析中），因此对该示例的讨论必定含糊不清。但是，它显示了一个物理上合理的情况，在该情况下，因变量将与低方差成分相关，从而确认了文献中的三个经验示例。
$\quad$ 此外，已经对基于云的示例进行了基于加的夫（威尔士）机场1966-73年期间数据的测试，其中还包括一个额外的气候变量海面温度。结果基本上如上所述。最后一个主成分约为，它仅占总变化的0·4％。但是，在主成分回归中，它很容易成为的最重要预测因子。 _{^{^{[强调已添加]}}} $T_s-T_d$ $H$

第二段最后一句中提到的三个文献例子是我在对链接问题的回答中提到的三个例子。

^{参考

Jolliffe，IT（1982）。注意回归中主成分的使用。应用统计，31（3），300-303。取自http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf。}

— 尼克·斯陶纳
source

V (A + B) = V (A) + V (B) + 2 C o v (A, B)

$V(A+B) =V(A)+V(B)+2\mathrm{Cov}(A,B)$

V (A - B) = V (A) + V (B) - 2 C o v (A, B)

$V(A-B) =V(A)+V(B)-2\mathrm{Cov}(A,B)$

T_{s} - T_{d}

$T_s - T_d$

+1，这是一个很好的例子。有趣的是，它也是抑制的一个例子。

— gung-恢复莫妮卡

17

如果您有R，则crabsMASS包中的数据中有一个很好的例子。

> library(MASS)
> data(crabs)
> head(crabs)

  sp sex index   FL  RW   CL   CW  BD
1  B   M     1  8.1 6.7 16.1 19.0 7.0
2  B   M     2  8.8 7.7 18.1 20.8 7.4
3  B   M     3  9.2 7.8 19.0 22.4 7.7
4  B   M     4  9.6 7.9 20.1 23.1 8.2
5  B   M     5  9.8 8.0 20.3 23.0 8.2
6  B   M     6 10.8 9.0 23.0 26.5 9.8

> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000

前两个PC可以“解释”超过98％的方差，但实际上，如果您实际上已经收集了这些测量值并进行了研究，那么第三台PC将非常有趣，因为它与螃蟹的种类密切相关。但是它被PC1（似乎与螃蟹的大小相对应）和PC2（似乎与螃蟹的性别相对应）所淹没。

在此处输入图片说明

— 比目鱼
source

2

+1，这是一个非常整洁的演示。如果您愿意，我制作了2个可以添加的散点图矩阵。

— gung-恢复莫妮卡

1

@gung：感谢您添加散点图！我之前曾对这个答案表示赞同，但在没有看到情节的情况下并没有完全理解它。散点图PC2和PC3真的很棒：几乎完全区分性别和物种。我也喜欢这个例子，因为它说明了当所有变量都高度正相关时发生的情况（即PC1解释了很多方差，基本上是一个平均值）。

— 变形虫说恢复莫妮卡2015年

1

谢谢，@ amoeba。我真的很喜欢他们的结果。我花了很多时间来检查它们（颜色，pch，标签，图例）。我实际上认为他们现在很漂亮。您对PC1讲得很对。我们还可以看到，在许多关系中（可能）有恒定的变异系数和性别和/或物种的相互作用：小（婴儿？）螃蟹的性别值相同，而与性别或物种无关。他们成长（年龄？）变得更加独特。等等，有很多有趣的东西可供查看-您可以继续查看它们。

— gung-恢复莫妮卡

8

这是根据我的经验（化学计量学，光学/振动/拉曼光谱法）得出的两个例子：

我最近获得了光谱数据，其中原始数据的总方差的99％以上是由于背景光的变化（聚光灯在测量点上或多或少强烈，荧光灯开/关，或多或少的云太阳）。在使用已知影响因子的光谱进行背景校正（通过PCA提取原始数据；进行了额外的测量以涵盖这些变化）之后，我们感兴趣的效果出现在PC 4和5中
。PC1和3在其中由于测量样品中的其他影响，PC 2与测量期间仪器尖端的温度升高有关。
在另一测量中，使用了对于所测量的光谱范围没有色彩校正的透镜。色差导致光谱失真，约占光谱的百分之十。预处理数据总方差的90％（主要在PC 1中捕获）。
对于这些数据，我们花了相当长的时间才知道确切发生了什么，但是切换到更好的物镜解决了以后进行实验的问题。

（我无法显示详细信息，因为这些研究尚未发表）

— cbeleites支持莫妮卡
source

3

我注意到，在协方差矩阵上执行PCA时，方差低的PC最有用，在协方差矩阵中，基础数据以某种方式进行聚类或分组。如果一组中的平均方差比其他组低得多，则最小的PC将由该组主导。但是，您可能出于某些原因不想丢弃该组的结果。

在金融领域，股票收益每年约有15-25％的标准偏差。从历史上看，债券收益率的变化要低得多。如果对股票收益和债券收益率变化的协方差矩阵执行PCA，则顶部PC将全部反映股票的方差，而最小PC将反映债券的方差。如果您扔掉解释债券的个人电脑，那么您可能会遇到麻烦。例如，债券可能具有与股票不同的分布特征（细尾，不同的时变方差属性，不同的均值回归，协整等）。根据情况，这些对于建模可能非常重要。

如果对相关矩阵执行PCA，则可能会在顶部附近看到更多PC在解释键。

— 约翰
source

如果不知道股票，债券，收益率和回报率是什么，这个答案很难理解。我没有，所以我看不到你的第一句话与你的第二句话有什么关系……

— 变形虫说恢复莫妮卡2014年

1

我做了一些编辑。

— 约翰

1

在此演讲中（幻灯片），演示者讨论了他们使用PCA区分高可变性和低可变性特征的方法。

他们实际上更喜欢将低变异性特征用于异常检测，因为低变异性维度的显着变化是异常行为的有力指示。他们提供的激励示例如下：

假设用户始终从Mac登录。他们活动的“操作系统”维度将具有非常低的差异。但是，如果我们看到来自同一用户的登录事件，而该用户的“操作系统”是Windows，那将是非常有趣的事情，并且我们想捕捉一下。

— 海龟
source