主成分分析可以使用矩阵分解,但这只是达到此目的的工具。
在不使用矩阵代数的情况下如何找到主成分?
目标函数(目标)是什么,约束是什么?
主成分分析可以使用矩阵分解,但这只是达到此目的的工具。
在不使用矩阵代数的情况下如何找到主成分?
目标函数(目标)是什么,约束是什么?
Answers:
从优化的角度来看,在不尝试全面介绍PCA的情况下,主要目标函数是Rayleigh商。商中表示的矩阵是样本协方差矩阵 其中每个是向量特征和是矩阵,使得第i行是。xipXix T i
PCA寻求解决一系列优化问题。序列中的第一个是不受约束的问题
由于,上述无约束问题等同于受约束问题 最大化u T S u服从u T u = 1
这是矩阵代数的出现位置。由于是对称正半定矩阵(通过构造!),它具有特征值分解形式 其中是一个正交矩阵(因此)和是对角矩阵,具有非负项,使得。小号 = Q Λ Q ŤQ Q Q Ť = 我 Λ λ 我λ 1 ≥ λ 2 ≥ ⋯ ≥ λ p ≥ 0
因此,。由于在问题中被约束为1的范数,因此因为,因为是正交的。 ü 瓦特 ‖瓦特‖ 2 =‖ Q Ť Ù ‖ 2 =‖ Ù ‖ 2 =1 Q
但是,如果我们想在的约束下最大化数量,那么我们可以做的最好是设置,即对于,且。 Σ p 我= 1瓦特 2 我 =1瓦特=ë1瓦特1=1瓦特我=0我>1
现在,首先返回相应的,我们得到 ,其中表示的第一列,即对应于的最大特征值的特征向量。然后,目标函数的值也很容易被视为。Ù ⋆ = Q ë 1 = q 1 q 1 Q 小号λ 1
然后,通过求解优化问题的序列(由索引) 找到剩余的主成分向量 因此,问题是一样的,除了我们添加了额外的约束,即解决方案必须与序列中所有先前的解决方案正交。不难推论地将上面的论点扩展为证明第个问题的解确实是,第个特征向量。最大化ü Ť 我 š ù我受û Ť 我 Ù我 = 1我q我我š
PCA解决方案也经常用的奇异值分解来。为了说明原因,让。然后,因此(严格来说,直到符号翻转)和。X = û d V Ť Ñ 小号 = X Ť X = V d 2 V Ť V = Q Λ = d 2 / Ñ
通过将投影到主成分向量上可以找到主成分。从刚刚给出的SVD公式中,很容易看到 X Q = X V = U D V T V = U D
就特征矩阵的SVD而言,主要成分向量和主要成分本身的简单表示是SVD特征在PCA的某些治疗中如此突出的原因之一。
基数提出的解决方案集中在样本协方差矩阵上。另一个起点是q维超平面对数据的重建误差。如果p维数据点是则目标是求解
对于具有正交列和的矩阵。这给出了由欧几里得范数测得的最佳秩q-重构,并且解的列是第一个q主成分向量。
对于固定的,和(这是回归)为
为了便于说明,假设在以下计算中居中。然后我们必须最小化
在并具有正交列。注意,是在q维列空间上的投影。因此,问题等同于最小化
以上秩q突起。也就是说,我们需要最大化
在等级q投影,其中是样本协方差矩阵。现在
重建误差表明了许多有用的概括,例如稀疏的主成分或通过低维流形而非超平面的重建。有关详细信息,请参见《统计学习的要素》中的 14.5节。