单一答案:两者。
让我们从定义规范开始。对于矩阵,运算符范数定义为和Frobenius范式为\ | X \ | _F = \ sqrt {\ sum_ {ij} X_ {ij} ^ 2} = \ mathrm {tr}(X ^ \ top X)= \ sqrt {\ sum s_i ^ 2} ,
其中s_i是X的奇异值,即S的对角元素在奇异值分解中X = USV ^ \ top。X2
∥X∥2=sup∥Xv∥2∥v∥2=max(si)
∥X∥F=∑ijX2ij−−−−−−√=tr(X⊤X)=∑s2i−−−−−√,
siXSX=USV⊤
当数据居中时,通过相同的奇异值分解给出PCA。US是主要成分,V是主轴,即协方差矩阵的特征向量,并且X仅具有对应于k个最大奇异值的k主要成分的X的重构由X_k = U_k S_k V_k ^ \ top给出。kXk=UkSkV⊤k
该埃卡特-杨定理说,是矩阵最小化重构误差的标准在秩为所有矩阵中。Frobenius范数和运算符 -norm都适用。正如@cardinal在评论中所指出的那样,Schmidt(于Gram-Schmidt名望)于1907年首次为Frobenius案证明了这一点。后来由Eckart和Young在1936年重新发现,现在大多与他们的名字相关联。Mirsky在1958年将定理推广到所有在ary变换下不变的范数,其中包括算子2-范数。Xk∥X−A∥Ak2
该定理有时称为Eckart-Young-Mirsky定理。Stewart(1993)将其称为施密特逼近定理。我什至看到它称为Schmidt-Eckart-Young-Mirsky定理。
操作员证明范数2
令为全等级。由于的等级为,因此其零空间的尺寸为。与最大奇异值相对应的的右奇异矢量跨越的空间具有维。因此,这两个空间必须相交。令为相交处的单位向量。然后我们得到:
QED。XnAkn−kk+1Xk+1w
∥X−A∥22≥∥(X−A)w∥22=∥Xw∥22=∑i=1k+1s2i(v⊤iw)2≥s2k+1=∥X−Xk∥22,
Frobenius规范的证明
我们希望找到矩阵等级的最小化。我们可以分解,其中有正交列。使固定最小化是具有解的回归问题。插入它,我们看到我们现在需要最小化其中是的协方差矩阵,即Ak∥X−A∥2FA=BW⊤Wk∥X−BW⊤∥2WB=XW
∥X−XWW⊤∥2=∥X∥2−∥XWW⊤∥2=const−tr(WW⊤X⊤XWW⊤)=const−const⋅tr(W⊤ΣW),
ΣXΣ=X⊤X/(n−1)。这意味着重建误差是通过取作为列最小化一些正交向量最大化突起的总方差。
Wk
众所周知,这些是协方差矩阵的前特征向量。实际上,如果,则。写也有正交列,我们得到当时达到。该定理随即出现。kX=USV⊤Σ=VS2V⊤/(n−1)=VΛV⊤R=V⊤W
tr(W⊤ΣW)=tr(R⊤ΛR)=∑iλi∑jR2ij≤∑i=1kλk,
W=Vk
请参阅以下三个相关线程:
早期尝试证明Frobenius范数
我在网上某个地方找到了这个证明,但它是错误的(包含一个空白),如@cardinal在评论中所述。
Frobenius范数在单一变换下是不变的,因为它们不会更改奇异值。这样我们得到:其中。继续:当所有非对角元素均为零且所有对角线项抵消最大奇异值 [此处间隙:这并不明显]时,这将最小化,即,因此。
∥X−A∥F=∥USV⊤−A∥=∥S−U⊤AV∥=∥S−B∥,
B=U⊤AV∥X−A∥F=∑ij(Sij−Bij)2=∑i(si−Bii)2+∑i≠jB2ij.
Bkksi Boptimal=SkAoptimal=UkSkV⊤k