如果维数为为什么


22

在PCA中,当维数大于(甚至等于)样本数,为什么您最多具有个非零特征向量?换句话说,维中协方差矩阵的秩为Ñ Ñ - 1 d ÑdNN1dNN1

示例:您的样本是矢量化图像,尺寸为d=640×480=307200,但您只有N=10张图片。


5
想象2D或3D中点。这些点所占据的流形的维数是多少?答案是N 1 = 1:一条线上总是有两个点(并且一条线是一维的)。空间的确切维数无关紧要(只要它大于N即可),您的点仅占据一维子空间。因此,方差仅在此子空间中“散布”,即沿1维。对于任何N都是如此N=2N1=1Nñ
变形虫说恢复莫妮卡2014年

1
我只是在@amoeba的评论中添加一个额外的精度。起点也很重要。因此,如果您有N = 2 +原点,则维数最多为2(而不是1)。但是,在PCA中,我们通常将数据居中,这意味着我们将原点放在数据云的空间内-然后一维被消耗,答案将为“ N-1”,如变形虫所示。
ttnphns 2014年

这就是令我困惑的地方。不是居中破坏尺寸本身,对吗?如果您正好有N个样本和N个维,那么即使居中后,您仍然有N个特征向量。
GrokingPCA 2014年

2
为什么?居中破坏了一个维度。居中(通过算术平均值)将原点从“外部”“移动”到数据“跨越”的空间中。以N = 2为例。2点+一些原点通常跨越一个平面。将数据居中时,将原点放在两点中间的一条直线上。因此,数据现在仅跨线。
ttnphns 2014年

3
欧几里得(Euclid)在2300年前就已经知道:两点确定一条线,三点确定一架飞机。概括而言,个点确定N - 1欧几里德空间NN1
ub

Answers:


20

考虑一下PCA的功能。简而言之,PCA(通常运行)通过以下方式创建新的坐标系:

  1. 将原点转移到数据的质心,
  2. 挤压和/或拉伸轴以使其长度相等,以及
  3. 将您的轴旋转到新的方向。

(有关更多详细信息,请参见以下出色的CV线程:理解主成分分析,特征向量和特征值。)但是,它不仅会以任何旧的方式旋转轴。您的新(第一个主成分)是在数据最大变化的方向上定向的。第二主成分的方向是与第一主成分正交的下一个最大变化量的方向。其余的主要成分同样形成。 X1个

考虑到这一点,让我们研究@amoeba的示例。这是在三维空间中具有两个点的数据矩阵:

X=[1个1个1个222]
让我们在(伪)三维散点图中查看这些点:

在此处输入图片说明

1.51.51.5000333003330030303

ñ=2ñ-1个=1个主成分。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.