在PCA中,当维数大于(甚至等于)样本数,为什么您最多具有个非零特征向量?换句话说,维中协方差矩阵的秩为Ñ Ñ - 1 d ≥ Ñ。
示例:您的样本是矢量化图像,尺寸为,但您只有张图片。
5
想象2D或3D中点。这些点所占据的流形的维数是多少?答案是N − 1 = 1:一条线上总是有两个点(并且一条线是一维的)。空间的确切维数无关紧要(只要它大于N即可),您的点仅占据一维子空间。因此,方差仅在此子空间中“散布”,即沿1维。对于任何N都是如此。
—
变形虫说恢复莫妮卡2014年
我只是在@amoeba的评论中添加一个额外的精度。起点也很重要。因此,如果您有N = 2 +原点,则维数最多为2(而不是1)。但是,在PCA中,我们通常将数据居中,这意味着我们将原点放在数据云的空间内-然后一维被消耗,答案将为“ N-1”,如变形虫所示。
—
ttnphns 2014年
这就是令我困惑的地方。不是居中破坏尺寸本身,对吗?如果您正好有N个样本和N个维,那么即使居中后,您仍然有N个特征向量。
—
GrokingPCA 2014年
为什么?居中破坏了一个维度。居中(通过算术平均值)将原点从“外部”“移动”到数据“跨越”的空间中。以N = 2为例。2点+一些原点通常跨越一个平面。将数据居中时,将原点放在两点中间的一条直线上。因此,数据现在仅跨线。
—
ttnphns 2014年
欧几里得(Euclid)在2300年前就已经知道:两点确定一条线,三点确定一架飞机。概括而言,个点确定N - 1维欧几里德空间。
—
ub