问题陈述
PCA试图优化的几何问题对我来说很清楚:PCA试图通过最小化重建(投影)误差来找到第一个主成分,这同时使投影数据的方差最大化。
那就对了。我在这里(没有数学)或这里的答案中解释了这两种公式之间的联系(带数学)的。
让我们采取第二种说法:PCA正在尝试寻找方向,以使数据在其上的投影具有最大可能的方差。根据定义,该方向称为第一主要方向。我们可以正式化如下:给定协方差矩阵C,我们正在寻找一个矢量w具有单位长度,∥ 瓦特 ∥ = 1,使得w⊤ç w ^是最大的。
(只是在不清楚的情况下:如果X是居中的数据矩阵,则投影由X w ^给出,其方差为1个n − 1(X w )⊤⋅ X 瓦特 = 瓦特⊤⋅ (1n − 1X⊤X)⋅瓦特 =瓦特⊤ç w ^)。
在另一方面,的特征向量C是,根据定义,任何矢量v,使得Ç v =λ v。
结果表明,第一主方向由特征值最大的特征向量给出。这是不平凡和令人惊讶的声明。
证明
如果打开有关PCA的任何书籍或教程,则可以在上面找到以下关于上述陈述的几乎单行证明。我们要最大限度地w⊤ç w ^的约束下是∥ 瓦特 ∥ = 瓦特⊤w =1 ; 这是可以做到引入拉格朗日乘数和最大化w⊤Ç w ^ - λ (w⊤w − 1 ) ; 分化,我们得到Ç 瓦特 -λ瓦特 =0,这是本征向量方程。我们看到λ实际上已经被代此溶液到目标函数,它给出为最大特征值w⊤C w - λ (w⊤w −1)= w⊤Ç 瓦特 =λ瓦特⊤w =λ。由于该目标函数应被最大化,因此λ必须是最大特征值QED。
对于大多数人来说,这往往不是很直观。
CCλ一世w⊤ç w ^Σ λ一世w2一世瓦特 =(1,0,0,...,0)λ1个w⊤ç w ^
我认为这是一个非常直观且非常有用的论据,但它依赖于谱定理。因此,我认为真正的问题是:谱定理背后的直觉是什么?
谱定理
采取对称矩阵C。以它的特征向量w1个与最大特征值λ1个。将此特征向量设为第一个基础向量,并随机选择其他基础向量(以使所有这些向量都是正交的)。C在此基础上将如何看待?
λ1个w1个= (1 ,0 ,0 ... 0 )ç w ^1个= (C11,C21,... Cp 1)λ1个w1个= (λ1个,0 ,0 ... 0 )
λ1个
λ1个
C = ⎛⎝⎜⎜⎜⎜λ1个0⋮00…0⎞⎠⎟⎟⎟⎟,
λ1个λ2CC
这是对完全相同的论点的更抽象的表述。
ç w ^1个= λ1个w1个Cvw1个ç vw1个
w⊤1个C v =( w⊤1个C v )⊤= v⊤C⊤w1个= v⊤ç w ^1个= λ1个v⊤w1个= λ1个⋅ 0 = 0。
Cw1个w1个w2