Answers:
在PCA中,将协方差(或相关性)矩阵划分为比例部分(特征值)和方向部分(特征向量)。然后,您可以为特征向量赋予scale:loadings。因此,负荷在大小上可以与变量之间观察到的协方差/相关性进行比较,这是因为从变量的协方差中提取的结果现在以变量与主成分之间的协方差的形式返回。实际上,载荷是原始变量和单位比例分量之间的协方差/相关性。该答案从几何角度显示了什么是载荷,以及在PCA或因子分析中将变量与变量相关联的系数是什么。
装载量:
帮助您解释主要成分或因素;因为它们是线性组合权重(系数),因此单位比例的组件或因子定义或“加载”变量。
(特征向量只是正交变换或投影的系数,在其值内没有“负载”。“负载”是(数量的信息)方差,幅度。提取PC来解释变量的方差。特征值是当我们将特征向量乘以特征值的平方根时,我们会将裸系数乘以方差量,从而使系数成为关联度的度量,变化性。)
在PCA中,您可以根据特征向量和载荷来计算组件的值,而在因子分析中,可以从载荷中计算因子得分。
而且,最重要的是,加载矩阵是有用的:其垂直平方和是特征值,组件的方差,而水平平方和是变量“方差”的一部分,这些变量由组件“解释”。
重新缩放或标准化的负载是负载除以变量的st。偏差; 这是相关性。(如果您的PCA是基于相关的PCA,则负载等于重新缩放的负载,因为基于相关的PCA是标准化变量上的PCA。)重新缩放的负载平方具有pr贡献的含义。组成变量;如果它很高(接近1),则仅由该组件很好地定义变量。
您将看到在PCA和FA中完成的计算示例。
特征向量是单位尺度的载荷。它们是变量正交变换(旋转)为主成分或反向的系数(余弦)。因此,使用它们很容易计算出组件的值(未标准化)。除此之外,它们的使用受到限制。特征向量值平方的含义是变量对pr的贡献。零件; 如果它很高(接近1),则仅由该变量即可很好地定义组件。
尽管特征向量和载荷只是两种不同的方法,用于标准化表示双点图上数据列(变量)的相同点的坐标,但将这两项混合使用并不是一个好主意。这个答案解释了为什么。另请参阅。
R
此站点上的许多用户称PCA的特征向量为“负载”,这可能来自功能文档。
关于载荷,系数和特征向量,似乎存在很多困惑。单词loading来自因子分析,它是指数据矩阵回归到因子上的回归系数。它们不是定义因素的系数。参见例如Mardia,Bibby和Kent或其他多元统计教科书。
近年来,单词加载已被用于指示PC系数。在这里,它似乎用来表示系数乘以矩阵特征值的平方根。这些不是PCA中常用的数量。主成分定义为以单位范数系数加权的变量之和。这样,PC的范数等于相应的特征值,而特征值又等于组件所解释的方差。
在因子分析中,因子需要具有单位范数。但是FA和PCA完全不同。极少旋转PC系数,因为它破坏了组件的最佳性。
在FA中,因素不是唯一定义的,可以用不同的方式估算。重要的数量是用于研究协方差矩阵的结构的负载(真实负载)和社区。应该使用PCA或PLS来估计分量。
L
,其是用来写协方差矩阵作为S = LL' + C
其中C
是对角矩阵。它们与PC的系数无关。
they have nothing to do with the PCs' coefficients
就像在FA中一样,我们在PCA中计算负载。模型不同,但是两种方法中加载的含义相似。
In Factor Analysis (using PCA for extraction), we get orthonormal eigen vectors (unit vectors) and corresponding eigenvalues. Now, loadings are defined as
荷载=正交特征向量⋅(绝对特征值)的平方根在这里,正交特征向量(即术语“正交特征向量”)提供方向,术语“绝对特征值”的平方根提供该值。
通常人们说负载的迹象并不重要,但其大小很重要。但是,如果我们反转一个特征向量的方向(保持其他特征向量的原样),则因子得分将发生变化。因此,进一步分析将受到重大影响。
到目前为止,我仍无法获得令人满意的解决方案。
在这件事上似乎有些困惑,所以我将提供一些观察结果,并指出在文献中可以找到最佳答案的地方。
首先,主成分分析和因子分析(FA)的关系。通常,根据定义,主成分是正交的,而因子(FA中的类似实体)则不是。简而言之,由于主成分是从数据的纯本征分析中得出的,因此它们以任意但不一定有用的方式跨越要素空间。另一方面,因素代表现实世界中的实体,它们只是巧合而正交(即不相关或独立)。
说我们拿小号观察从每升科目。可以将它们排列成具有s行和l列的数据矩阵D。D可以分解为得分矩阵S和加载矩阵L,使得D = SL。S将具有s行,L将具有l列,每个列的第二维是因子n的数量。因子分析的目的是分解D以揭示潜在分数和因素的方式。L中的载荷告诉我们构成D中观察值的每个分数的比例。
在PCA中,L具有D的相关性或协方差矩阵的特征向量作为其列。这些通常按相应特征值的降序排列。n的值(即要保留在分析中的重要主成分的数量,因此是L的行数)通常是通过使用特征值的斜线图或在以下方法中找到的许多其他方法之一来确定的文献。PCA 中S的列本身构成n个抽象主成分。n的值是数据集的基础维数。
因子分析的目的是通过使用变换矩阵变换所述抽象组件成有意义的因素Ť使得d = STT -1 大号。(ST)是变换后的得分矩阵,而(T -1 L)是变换后的负载矩阵。
上面的解释大致遵循了Edmund R. Malinowski从其出色的化学因子分析法的概念。我强烈建议开头的章节作为该主题的介绍。