SVD / PCA的“规范化”变量
假设我们有NNN可测量的变量(a1,a2,…,aN)(a1,a2,…,aN)(a_1, a_2, \ldots, a_N),我们进行了M>NM>NM > N个测量,然后希望对结果进行奇异值分解,以找到最大方差轴。N维空间中的MMM个点。(注意:假设的装置一个我已经减去,所以⟨ 一个我 ⟩ = 0对于所有我)。NNNaiaia_i⟨ai⟩=0⟨ai⟩=0\langle a_i \rangle = 0iii 现在假设一个(或多个)变量的特征量级与其余变量具有显着不同的特征量级。例如a1a1a_1可具有值的范围在10−10010−10010-100其余的可能约为0.1−10.1−10.1-1。这将扭曲向最高方差的轴a1a1a_1的轴非常多。 大小上的差异可能仅仅是由于不幸地选择了度量单位(如果我们谈论的是物理数据,例如公里与米),但是实际上不同的变量可能具有完全不同的尺寸(例如重量与体积),因此可能没有任何明显的方法为它们选择“可比较”的单位。 问题: 我想知道是否存在任何标准/通用方法来规范化数据以避免这种问题。我更感兴趣的是产生了相当的幅度标准技术a1−aNa1−aNa_1 - a_N为了这个目的,而不是想出一些新的东西。 编辑: 一种可能性是通过其标准偏差或类似的东西标准化每个变量。但是,随后出现以下问题:让我们将数据解释为NNN维空间中的点云。该点云可以旋转,并且这种类型的归一化将根据旋转给出不同的最终结果(在SVD之后)。(例如,在最极端的情况下,想象精确地旋转数据以使主轴与主轴对齐。) 我希望不会有任何旋转不变的方法,但是如果有人能指出我对文献中有关此问题的某些讨论,特别是关于结果解释中的注意事项,我将不胜感激。