主成分分析(PCA)的目标函数是使L2范数中的重构误差最小化(请参阅此处的 2.12节。另一种观点试图使投影的方差最大化。我们在此处也有一篇很不错的文章:PCA的目标函数是什么?)。
我的问题是PCA优化凸出吗?(我在这里找到了一些讨论,但希望有人可以在这里提供有关CV的很好的证明)。
主成分分析(PCA)的目标函数是使L2范数中的重构误差最小化(请参阅此处的 2.12节。另一种观点试图使投影的方差最大化。我们在此处也有一篇很不错的文章:PCA的目标函数是什么?)。
我的问题是PCA优化凸出吗?(我在这里找到了一些讨论,但希望有人可以在这里提供有关CV的很好的证明)。
Answers:
不,PCA的通常配方不是凸面问题。 但是它们可以转化为凸优化问题。
洞察力和乐趣在于跟随并形象化转换的顺序,而不仅仅是获得答案:它在于旅程,而不是目的地。此旅程的主要步骤是
获得目标函数的简单表达式。
将其非凸的域扩大为一个。
将非凸面的物镜修改为明显不改变其达到最佳值的点的物镜。
如果密切关注,您会发现SVD和Lagrange乘法器潜伏着-但它们只是一个杂耍,出于风景的考虑,我将不对其进行评论。
PCA的标准方差最大化公式(或至少是其关键步骤)为
其中, ×矩阵是根据数据(通常是其平方和乘积和,协方差矩阵或相关矩阵)构造的对称正定矩阵。A
(等效地,我们可以尝试最大化不受约束的目标。这不仅是一个更讨厌的表达式-它不再是二次函数-绘制特殊情况的图形通常也可以观察到该函数在将缩放不变,然后将其为约束公式。X →交通λ X (* )
任何优化问题都可以抽象表示为
找到至少一个,使函数尽可能大。 ˚F :X → ř
回想一下,当优化问题具有两个单独的属性时,它是凸的:
该域 是凸的。 这可以用很多方式来表述。一种是每当和且,也会。几何上:只要线段的两个端点位于,整个线段就位于。 ý∈ X 0≤λ≤1λX+(1-λ)ý∈ X X X
的函数 是凸的。 这也可以用很多方式来表述。一种是每当和且,(为了使该条件有意义,我们需要使凸出。)几何上:只要是任何线段,的图形(仅限于此线段)就位于上方或在连接段和在。 ý ∈ X 0 ≤ λ ≤ 1 ˚F (λ X + (1 - λ )Ý )≥ λ ˚F (X )+ (1 - λ )˚F (Ý )。X ‾ X ý X ˚F (X ,˚F (X ))(Ý ,˚F (ÿ
凸函数的原型在局部到处都是抛物线,且前导系数为非正数:在任何线段上,都可以用且一个≤ 0。
一个难点是是单位球,它肯定不是凸的。X 小号ñ - 1 ⊂ ř Ñ 但是,我们可以通过包含较小的向量来修改此问题。这是因为当我们将乘以因子,会乘以。当,我们可以通过将乘以来将缩放到单位长度,从而增加但保持在单位球。λ ˚F λ 2 0 < X ' X < 1 X λ = 1 / √˚FdÑ={X∈ [R Ñ|X'X≤1}(*) 因此,让我们将重新表示为
它的域是,它显然是凸的,所以我们到了一半。仍然需要考虑的图的凸性。
考虑问题一个好方法- 即使您不打算执行相应的计算-也是基于谱定理。 它说,通过正交变换,您可以找到至少一个基础,其中是对角线的:也就是说,
所有非对角线条目均为零。这种选择可以被认为完全不改变,而只是改变其描述方式:旋转角度时,函数的水平超曲面的轴(始终是椭圆形)与坐标轴对齐。
由于是正半定的,因此所有对角线项都必须是非负数。 我们可以进一步置换轴(这只是另一个正交变换,因此可以吸收到),以确保
如果我们让为新坐标(需要),则函数为
这个功能绝对不是凸的! 它的图看起来像是一个超抛物面的一部分:在内部的每个点,所有都是非负数这一事实使它向上卷曲而不是向下卷曲。
但是,我们可以通过一种非常有用的技术将变成凸问题。 知道最大值将在,让我们从减去常数,至少对于边界上的点而言。这不会改变任何点的位置边界处进行了优化,因为它降低了所有值相同的值在边界上。这建议检查功能
实际上,这在边界点从减去常数,在内部点减去较小的值。 这将确保与相比,在内部没有新的全局最大值。
让我们研究一下用替换的惯用。因为是正交的,所以。(这实际上是正交变换的定义。)因此,就坐标而言,可以写成
因为对于所有,每个系数为零或负。 因此,当时,(a)是凸的,而(b)是优化的。(则意味着并且当时达到最佳。符号-的第一列。)
让我们概括一下逻辑。 因为在的边界上优化,因为与区别仅在于该边界上的常数,并且因为的值甚至更接近到的值上的内部,的最大值必须的最大值重合。
没有。
矩阵等级 PCA 可表示为
(是Frobenius范数)。有关推导,请参见Eckart-Young定理。
尽管范数是凸的,但对其进行优化的集合是非凸的。
一个凸松弛 PCA的问题被称为凸低秩逼近
(是核范数。它是秩的凸松弛-就像是矢量的非零元素数的凸松弛) ‖ ⋅ ‖ 1
有关详细信息,请参见《稀疏统计学习》第6章(矩阵分解)。
如果您对更常见的问题以及它们与凸度的关系感兴趣,请参见广义低秩模型。
免责声明:前面的答案很好地解释了PCA在其原始公式中是如何非凸的,但可以转换为凸优化问题。我的答案仅适用于那些对单元球和SVD术语不太熟悉的可怜的人(例如我)-顺便说一句,很高兴知道。
对于要用凸优化技术解决的优化问题,有两个先决条件。
PCA的大多数公式都涉及矩阵等级的约束。
在这些类型的PCA配方中,违反了条件2。因为,的约束不是凸的。例如,令,为2×2个零矩阵,分别在左上角和右下角有一个1。然后,它们每个都具有等级1,但它们的平均值具有等级2。J 11 J 22