克里斯托弗·毕晓普(Christopher Bishop)在他的《模式识别和机器学习》一书中写道,在将数据投影到与先前选定的组件正交的空间之后,每个连续的主分量将投影在一个维度上的方差最大化。其他人显示类似的证明。
但是,这仅证明了就最大方差而言,每个连续分量都是对一个维度的最佳投影。为什么这意味着,首先选择这样的组件,投影到5个维度的方差最大化?
克里斯托弗·毕晓普(Christopher Bishop)在他的《模式识别和机器学习》一书中写道,在将数据投影到与先前选定的组件正交的空间之后,每个连续的主分量将投影在一个维度上的方差最大化。其他人显示类似的证明。
但是,这仅证明了就最大方差而言,每个连续分量都是对一个维度的最佳投影。为什么这意味着,首先选择这样的组件,投影到5个维度的方差最大化?
Answers:
几个维度上的差异(“总差异”)可以理解为仅仅是每个维度上的差异之和。从数学上讲,它是协方差矩阵的痕迹:痕迹只是所有对角元素的总和。此定义具有各种不错的属性,例如,在正交线性变换下轨迹是不变的,这意味着,如果旋转坐标轴,则总方差保持不变。
Bishop的书(第12.1.1节)证明,协方差矩阵的前导特征向量给出最大方差的方向。第二个特征向量在附加约束下给出了最大方差的方向,该约束应与第一个特征向量正交,依此类推。(我认为这构成了练习12.1)。如果目标是使2D子空间中的总方差最大化,则此过程是贪婪的最大化:首先选择一个使方差最大化的轴,然后选择另一个轴。
您的问题是:为什么此贪婪过程会获得全局最大值?
@whuber在注释中建议了一个很好的论点。让我们首先将坐标系与PCA轴对齐。协方差矩阵变成对角线:。为简单起见,我们将考虑相同的2D情况,即最大方差最大的平面是什么?我们想证明它是由前两个基向量(总方差)给出的平面。
考虑一个由两个正交向量和跨越的平面。此平面上的总方差为因此,它是特征值与全部为正,不超过(请参见下文)且总和为系数的线性组合。如果是这样,那么几乎很明显在达到了最大值。
仅留下表明系数不能超过。请注意,其中是第个基向量。此数量是在和跨越的平面上的投影的平方长度。因此,它必须小于等于 QED 的的平方长度。
另请参阅@cardinal 对PCA的目标功能是什么的答案?(遵循相同的逻辑)。
如果你有 不相关的随机变量按其方差的降序排列,并被要求选择 使得他们的总和的方差最大化,您是否同意选择第一个的贪婪方法 会做到吗?
投影到其协方差矩阵特征向量上的数据本质上是 不相关的数据列,其方差等于各自的特征值。
为了使直觉更清晰,我们需要将方差最大化与计算具有最大特征值的协方差矩阵的特征向量相关联,并将正交投影与消除相关性相关联。
第二个关系对我很清楚,因为两个(零均值)向量之间的相关系数与它们的内积成正比。
方差最大化与协方差矩阵的本征分解之间的关系如下。
假使,假设 是将列居中之后的数据矩阵。我们需要找到最大方差的方向。对于任何单位向量,沿投影后的方差 是
如果最大化 是...的特征向量 对应于最大特征值。