用PCA获得的低秩逼近矩阵可以使重构误差的范数最小化?


Answers:


30

单一答案:两者。


让我们从定义规范开始。对于矩阵,运算符范数定义为和Frobenius范式为\ | X \ | _F = \ sqrt {\ sum_ {ij} X_ {ij} ^ 2} = \ mathrm {tr}(X ^ \ top X)= \ sqrt {\ sum s_i ^ 2} , 其中s_iX的奇异值,即S的对角元素在奇异值分解中X = USV ^ \ topX2

X2=supXv2v2=max(si)
XF=ijXij2=tr(XX)=si2,
siXSX=USV

当数据居中时,通过相同的奇异值分解给出PCA。US是主要成分,V是主轴,即协方差矩阵的特征向量,并且X仅具有对应于k个最大奇异值的k主要成分的X的重构由X_k = U_k S_k V_k ^ \ top给出kXk=UkSkVk

埃卡特-杨定理说,是矩阵最小化重构误差的标准在秩为所有矩阵中。Frobenius范数和运算符 -norm都适用。正如@cardinal在评论中所指出的那样,Schmidt(于Gram-Schmidt名望)于1907年首次为Frobenius案证明了这一点。后来由Eckart和Young在1936年重新发现,现在大多与他们的名字相关联。Mirsky在1958年将定理推广到所有在ary变换下不变的范数,其中包括算子2-范数。XkXAAk2

该定理有时称为Eckart-Young-Mirsky定理。Stewart(1993)将其称为施密特逼近定理。我什至看到它称为Schmidt-Eckart-Young-Mirsky定理。


操作员证明范数2

令为全等级。由于的等级为,因此其零空间的尺寸为。与最大奇异值相对应的的右奇异矢量跨越的空间具有维。因此,这两个空间必须相交。令为相交处的单位向量。然后我们得到: QED。XnAknkk+1Xk+1w

XA22(XA)w22=Xw22=i=1k+1si2(viw)2sk+12=XXk22,

Frobenius规范的证明

我们希望找到矩阵等级的最小化。我们可以分解,其中有正交列。使固定最小化是具有解的回归问题。插入它,我们看到我们现在需要最小化其中是的协方差矩阵,即AkXAF2A=BWWkXBW2WB=XW

XXWW2=X2XWW2=consttr(WWXXWW)=constconsttr(WΣW),
ΣXΣ=XX/(n1)。这意味着重建误差是通过取作为列最小化一些正交向量最大化突起的总方差。Wk

众所周知,这些是协方差矩阵的前特征向量。实际上,如果,则。写也有正交列,我们得到当时达到。该定理随即出现。kX=USVΣ=VS2V/(n1)=VΛVR=VW

tr(WΣW)=tr(RΛR)=iλijRij2i=1kλk,
W=Vk

请参阅以下三个相关线程:


早期尝试证明Frobenius范数

我在网上某个地方找到了这个证明,但它是错误的(包含一个空白),如@cardinal在评论中所述。

Frobenius范数在单一变换下是不变的,因为它们不会更改奇异值。这样我们得到:其中。继续:当所有非对角元素均为零且所有对角线项抵消最大奇异值 [此处间隙:这并不明显]时,这将最小化,即,因此。

XAF=USVA=SUAV=SB,
B=UAV
XAF=ij(SijBij)2=i(siBii)2+ijBij2.
Bkksi Boptimal=SkAoptimal=UkSkVk

2
在Frobeniius范数的情况下,该证明是不正确的(或至少是完整的),因为此处的论点并不排除相同等级的矩阵可以抵消一些其他对角项而同时具有“小的”偏离的可能性。对角线。为了更清楚地看到间隙,请注意,将对角线保持恒定并将非对角线“置零”通常可以增加所讨论矩阵的等级!
主教

1
还请注意,贝尔德拉米(至少在相当普遍的情况下,尽管是特例)和约旦早在1874
红衣主教

@cardinal:嗯,我不确定我看到差距了。如果抵消了其他一些对角线项而不是最大对角线项,而是抵消了一些非零非对角线项,则两个和和将会增加。因此,这只会增加重建误差。没有?尽管如此,我还是试图在文献中找到Frobenius规范的另一种证明,并且已经读到它应该以某种方式从算子规范案例中轻松地遵循。但是到目前为止,我还没有看到应该怎么做……BSki(siBii)2ijBij2
变形虫说恢复莫妮卡2014年

3
确实喜欢GW Stewart(1993),关于奇异值分解的早期历史,《SIAM评论》,第一卷。35,没有 4,551-566,鉴于您先前对历史事务表现出的兴趣,我想您也是如此。不幸的是,我认为斯图尔特无意中对施密特1907年论证的高雅性不屑一顾。隐藏在其中的是Stewart忽略的回归解释,这确实很漂亮。还有另一种证明遵循您最初采用的对角化方法,但需要做一些额外的工作才能填补空白。(续)
红衣主教

2
@cardinal:是的,您是对的,现在我也看到了差距。非常感谢Stewart的论文,读起来很有趣。我看到Stewart提供了Schmidt和Weyl的证明,但是它们看起来都比我想在这里复制的要复杂得多(到目前为止,我还没有时间仔细研究它们)。我很惊讶:我期望这是一个非常简单的结果,但似乎没有我想象的那么简单。特别是,我不会期望Frobenius案比运营商准则那么复杂。我现在将编辑帖子。新年快乐!
变形虫说恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.