PCA的目标功能是什么?


42

主成分分析可以使用矩阵分解,但这只是达到此目的的工具。

在不使用矩阵代数的情况下如何找到主成分?

目标函数(目标)是什么,约束是什么?


1
也许我遗漏了一些东西,所以如果我错了,请纠正我,但是应该有可能(至少原则上)使用矩阵作为在(复杂的)线性编程问题中构造在PCA中完成的工作,但是我没有知道如何陈述所需的所有约束。另外,与仅使用PCA相比,我不确定这样做是否会非常简单。您为什么要避免使用矩阵?
克里斯·西莫卡特

@Chris我看不到如何解决线性编程问题。我也不理解在计算中应该避免使用矩阵。问题是PCA解决了什么样的问题,而不是解决问题的方式(例如,通过计算SVD)。红衣主教的解决方案说,您发现最大方差的连续正交方向。我提出的解决方案说,您发现重构误差最小的超平面。
NRH

@chris我希望找到另一种查看PCA的方法,而无需矩阵代数,以增强我的理解。
尼尔·麦圭根

1
@Chris,您有一个二次目标函数和一个范数相等约束。或者,在@NRH答案中的公式下,您具有矩阵等级约束。这不会解决线性编程问题。@NRH提供了一些很好的直觉,实际上,已经给出的关于PCA的两种观点之间有着非常紧密的联系。也许与@NRH合作,我们可以将其添加到他/她的帖子中,以使完整的答案更加完整。2
主教

1
@NRH,实际上,我非常喜欢ESL,但是我认为该主题在本书中的处理是很肤浅的,因为本书中许多主题都是如此。特别是,它们并不能证明(或什至指定为练习)解决所提出的优化问题的重要部分。
主教

Answers:


41

从优化的角度来看,在不尝试全面介绍PCA的情况下,主要目标函数Rayleigh商。商中表示的矩阵是样本协方差矩阵 其中每个是向量特征和是矩阵,使得第i行是。xipXix T i

S=1ni=1nxixiT=XTX/n
xipXixiT

PCA寻求解决一系列优化问题。序列中的第一个是不受约束的问题

maximizeuTSuuTu,uRp.

由于,上述无约束问题等同于受约束问题 最大化u T S u服从u T u = 1uTu=u22=uu

maximizeuTSusubject touTu=1.

这是矩阵代数的出现位置。由于是对称正半定矩阵(通过构造!),它具有特征值分解形式 其中是一个正交矩阵(因此)和是对角矩阵,具有非负项,使得。小号 = Q Λ Q ŤSQ Q Q Ť = Λ λ λ 1λ 2λ p0

S=QΛQT,
QQQT=IΛλiλ1λ2λp0

因此,。由于在问题中被约束为1的范数,因此因为,因为是正交的。 ü 瓦特瓦特2 = Q Ť Ù 2 = Ù 2 =1 QuTSu=uTQΛQTu=wTΛw=i=1pλiwi2uww2=QTu2=u2=1Q

但是,如果我们想在的约束下最大化数量,那么我们可以做的最好是设置,即对于,且。 Σ p = 1瓦特 2 =1瓦特=ë1瓦特1=1瓦特=0>1i=1pλiwi2i=1pwi2=1w=e1w1=1wi=0i>1

现在,首先返回相应的,我们得到 ,其中表示的第一列,即对应于的最大特征值的特征向量。然后,目标函数的值也很容易被视为。Ù = Q ë 1 = q 1 q 1 Q 小号λ 1u

u=Qe1=q1
q1QSλ1

然后,通过求解优化问题的序列(由索引) 找到剩余的主成分向量 因此,问题是一样的,除了我们添加了额外的约束,即解决方案必须与序列中所有先前的解决方案正交。不难推论地将上面的论点扩展为证明第个问题的解确实是,第个特征向量。最大化ü Ť š ùû Ť Ù = 1iqš

maximizeuiTSuisubject touiTui=1uiTuj=01j<i.
iqiiS

PCA解决方案也经常用的奇异值分解来。为了说明原因,让。然后,因此(严格来说,直到符号翻转)和。X = û d V Ť Ñ 小号 = X Ť X = V d 2 V Ť V = Q Λ = d 2 / ÑXX=UDVTnS=XTX=VD2VTV=QΛ=D2/n

通过将投影到主成分向量上可以找到主成分。从刚刚给出的SVD公式中,很容易看到 X Q = X V = U D V T V = U DX

XQ=XV=UDVTV=UD.

就特征矩阵的SVD而言,主要成分向量和主要成分本身的简单表示是SVD特征在PCA的某些治疗中如此突出的原因之一。


如果仅需要前几个奇异值/矢量,则Nash和Shlien给出的算法会让人想起通常的幂方法来计算主导特征值。OP可能对此很感兴趣。
JM不是统计学家,

@NRH,非常感谢您在设法看到我的错别字之前就赶上了我的错别字!
主教

1
嗨@cardinal,谢谢您的回答。但是似乎您没有采取步骤证明为什么顺序优化会导致全局最优。您能详细说明一下吗?谢谢!
Lifu Huang

21

基数提出的解决方案集中在样本协方差矩阵上。另一个起点是q维超平面对数据的重建误差。如果p维数据点是则目标是求解x1,,xn

minμ,λ1,,λn,Vqi=1n||xiμVqλi||2

对于具有正交列和的矩阵。这给出了由欧几里得范数测得的最佳秩q-重构,并且解的列是第一个q主成分向量。p×qVqλiRqVq

对于固定的,和(这是回归)为 Vqμλi

μ=x¯=1ni=1nxiλi=VqT(xix¯)

为了便于说明,假设在以下计算中居中。然后我们必须最小化 xi

i=1n||xiVqVqTxi||2

在并具有正交列。注意,是在q维列空间上的投影。因此,问题等同于最小化 以上秩q突起。也就是说,我们需要最大化 在等级q投影,其中是样本协方差矩阵。现在VqP=VqVqT

i=1n||xiPxi||2=i=1n||xi||2i=1n||Pxi||2
P
i=1n||Pxi||2=i=1nxiTPxi=tr(Pi=1nxixiT)=ntr(PS)
PSù1...üqq V qùq
tr(PS)=tr(VqTSVq)=i=1quiTSui
其中是中的(正交)列,@ cardinal答案中给出的参数表明最大值是通过取获得的。 s至是为特征向量与最大本征值。u1,,uqqVquiqSq

重建误差表明了许多有用的概括,例如稀疏的主成分或通过低维流形而非超平面的重建。有关详细信息,请参见《统计学习的要素》中的 14.5节。


(+1)好点。一些建议:定义会很好,并且给出结果的简短证明也非常好。或者,也可以将其连接到涉及Rayleight商的优化问题。我认为这将使该问题的答案非常完整!λi
主教

@cardinal,我相信我已经完成了从重建公式到解决问题的缺失步骤。
NRH

辛苦了 我相信剩下的唯一差距就是您的最后声明。现在还不很明显,优化总和与执行我的答案中的优化序列相同。实际上,一般而言,我认为这并不直接。但是,这里也无需解决。
主教

@cardinal,接着是归纳法。您提供归纳开始,并在归纳步骤中选择使总和最大化的正交向量并对其进行排列,以使是与正交的单位向量。然后根据您的结果并根据归纳假设。当然,基础不是维空间的唯一基础。您还可以泛化用于直接证明的“凸组合参数”。瓦特q ù 1... ù q - 1瓦特Ť q小号瓦特qù Ť q小号ü q Σ q - 1 = 1瓦特w1,,wqwqu1,,uq1wqTSwquqTSuqi=1q1wiTSwii=1q1uiTSuiq
NRH

1
@cardinal,我并没有强制嵌套,而只是考虑了尺寸。如果我们有一个维子空间,则可以始终在该空间中选择,使其与维子空间正交。然后,您可以按照自己喜欢的任何方式填充 -basis。w qq 1 wqwq(q1)w
NRH

4

有关一种没有明确使用矩阵分解的算法,请参见NIPALS(wiki)。我想这就是您说要避免矩阵代数时的意思,因为您在这里实在无法避免矩阵代数:)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.