为什么所有PLS组件一起只能解释原始数据的一部分差异？

我有一个由10个变量组成的数据集。我运行偏最小二乘（PLS）来预测这10个变量的单个响应变量，提取10个PLS分量，然后计算每个分量的方差。在原始数据上，我得出所有变量的方差之和为702。

然后，我将每个PLS分量的方差除以该总和，得到由PLS解释的方差的百分比，令人惊讶的是，所有分量一起解释了原始方差的44％。

对此有什么解释？不应该是100％吗？

— Ress
source

据我所知，在响应端（y），确定PLS分量的数量是观察的最小数量。我有20个观察。但是另一方面，我只有10个独立变量，这使我限于10个PLS。我的问题是用于计算每个组件（PLS或PCA）的解释方差的通用公式是什么？

— 2015年

mathworks.com/help/stats/plsregress.html此示例在Y侧只有一个变量，并计算10个组件。

— 2015年

所有PLS分量的方差之和通常小于100％。

$\mathbf y$ $\mathbf X$

$\mathbf t_i = \mathbf X \mathbf w_i$

$\mathbf y$ $\mathbf t_i$
$\|\mathbf w_i\|=1$
和中的任何两个PLS分量（也称为得分向量）都不相关。 $\mathbf t_i$ $\mathbf t_j$

注意，权重向量不必是正交的。

这意味着，如果由变量组成，并且找到了 PLS分量，那么您发现了一个非正交基础，并且在基向量上具有不相关的投影。可以从数学上证明在这种情况下，所有这些投影的方差之和将小于的总方差。如果权重向量是正交的，则它们将是相等的（例如在PCA中），但是在PLS中并非如此。 $\mathbf X$ $k=10$ $10$ $\mathbf X$

我不知道有任何教科书或论文明确讨论过这个问题，但我早些时候在线性判别分析（LDA）的背景下进行了解释，该分析也得出了一些非正交单位权重向量的不相关投影，请参见此处：PCA和LDA中解释差异的比例。

— 阿米巴
source

谢谢，是的。我不知道加载（权重）向量不是正交的。因此，它无法捕获X的最大方差。在matlab示例之后，您能为我提供数学上的“ PCTVAR”值吗？

— 2015年

我不确定，但是我可以考虑一下。PCTVAR（X中解释的差异百分比）中的第一列是否与您的计算不一致？还是您在询问第二列（y中解释了方差百分比）？通常，如果您想学习PLS数学，那么我建议您开始阅读Rosipal＆Kramer的论文，并点击链接。

— 变形虫