1
对主题(双)空间中PCA的几何理解
我试图对主成分分析(PCA)在主题(双)空间中的工作方式有一个直观的了解。 考虑具有两个变量x1x1x_1和x2x2x_2以及nnn数据点的2D数据集(数据矩阵XX\mathbf X为n×2n×2n\times 2并假定为居中)。PCA的通常表示是,我们考虑R 2中的nnn个点,记下2 × 2协方差矩阵,并找到其特征向量和特征值。第一个PC对应于最大方差的方向,等等。这是协方差矩阵C = (4 2 2 2)的示例R2R2\mathbb R^22×22×22\times 2C=(4222)C=(4222)\mathbf C = \left(\begin{array}{cc}4&2\\2&2\end{array}\right)。红线表示按各自特征值平方根缩放的特征向量。 \hskip 1in 现在考虑一下主题空间中发生了什么(我从@ttnphns学到了这个术语),也称为对偶空间(机器学习中使用的术语)。这是一个nnn维空间,其中两个变量(两列XX\mathbf X)的样本形成两个向量x1x1\mathbf x_1和x2x2\mathbf x_2。每个变量向量的平方长度等于其方差,两个向量之间的夹角余弦等于它们之间的相关性。顺便说一下,这种表示在多元回归的治疗中非常标准。在我的示例中,主题空间如下所示(我只显示了由两个变量向量跨越的2D平面): \hskip 1in 主成分是两个变量的线性组合,将在同一平面上形成两个向量和p 2。我的问题是:如何在这样的图形上使用原始变量矢量来形成主成分变量矢量的几何理解/直觉是什么?给定x 1和x 2,什么几何过程将产生p 1?p1p1\mathbf p_1p2p2\mathbf p_2x1x1\mathbf x_1x2x2\mathbf x_2p1p1\mathbf p_1 以下是我目前对此的部分理解。 首先,我可以通过标准方法计算主要成分/轴并将其绘制在同一图上: \hskip 1in 此外,我们可以注意到,选择要使x i(蓝色矢量)与其在p 1上的投影之间的距离的平方和最小。这些距离是重建误差,并且用黑色虚线显示。等效地,p 1使两个投影的平方长度的总和最大化。这完全指定了p 1,并且当然完全类似于主空间中的类似描述(请参见我对“理解主成分分析,特征向量和特征值”的回答中的动画)。另请参阅@ttnphns答案的第一部分。p1p1\mathbf p_1xixi\mathbf x_ip1p1\mathbf p_1p1p1\mathbf p_1p1p1\mathbf p_1 但是,这还不够几何!它没有告诉我如何找到这样的,也没有指定其长度。p1p1\mathbf …