为什么所有PLS组件一起只能解释原始数据的一部分差异?


10

我有一个由10个变量组成的数据集。我运行偏最小二乘(PLS)来预测这10个变量的单个响应变量,提取10个PLS分量,然后计算每个分量的方差。在原始数据上,我得出所有变量的方差之和为702。

然后,我将每个PLS分量的方差除以该总和,得到由PLS解释的方差的百分比,令人惊讶的是,所有分量一起解释了原始方差的44%。

对此有什么解释?不应该是100%吗?


据我所知,在响应端(y),确定PLS分量的数量是观察的最小数量。我有20个观察。但是另一方面,我只有10个独立变量,这使我限于10个PLS。我的问题是用于计算每个组件(PLS或PCA)的解释方差的通用公式是什么?
2015年

mathworks.com/help/stats/plsregress.html此示例在Y侧只有一个变量,并计算10个组件。
2015年

Answers:


12

所有PLS分量的方差之和通常小于100%。

yX

ti=Xwi

  1. yti
  2. wi=1
  3. 和中的任何两个PLS分量(也称为得分向量)都不相关。titj

注意,权重向量不必是正交的。

这意味着,如果由变量组成,并且找到了 PLS分量,那么您发现了一个非正交基础,并且在基向量上具有不相关的投影。可以从数学上证明在这种情况下,所有这些投影的方差之和将小于的总方差。如果权重向量是正交的,则它们将是相等的(例如在PCA中),但是在PLS中并非如此。Xk=1010X

我不知道有任何教科书或论文明确讨论过这个问题,但我早些时候在线性判别分析(LDA)的背景下进行了解释,该分析也得出了一些非正交单位权重向量的不相关投影,请参见此处:PCA和LDA中解释差异的比例


谢谢,是的。我不知道加载(权重)向量不是正交的。因此,它无法捕获X的最大方差。在matlab示例之后,您能为我提供数学上的“ PCTVAR”值吗?
2015年

我不确定,但是我可以考虑一下。PCTVAR(X中解释的差异百分比)中的第一列是否与您的计算不一致?还是您在询问第二列(y中解释了方差百分比)?通常,如果您想学习PLS数学,那么我建议您开始阅读Rosipal&Kramer的论文,并点击链接。
变形虫
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.