PCA中的载荷与特征向量:何时使用一个或另一个?


66

在主成分分析(PCA)中,我们获得特征向量(单位向量)和特征值。现在,让我们将载荷定义为

Loadings=EigenvectorsEigenvalues.

我知道特征向量只是方向,载荷(如上定义)也包括沿这些方向的方差。但是为了更好地理解,我想知道应该在哪里使用加载而不是特征向量?一个例子将是完美的!

我通常只看到人们使用特征向量,但是偶尔他们每次都使用加载(如上定义),然后我感到自己不太了解其中的区别。

Answers:


64

在PCA中,将协方差(或相关性)矩阵划分为比例部分(特征值)和方向部分(特征向量)。然后,您可以为特征向量赋予scale:loadings。因此,负荷在大小上可以与变量之间观察到的协方差/相关性进行比较,这是因为从变量的协方差中提取的结果现在以变量与主成分之间的协方差的形式返回。实际上,载荷原始变量和单位比例分量之间的协方差/相关性该答案从几何角度显示了什么是载荷,以及在PCA或因子分析中将变量与变量相关联的系数是什么。

装载量

  1. 帮助您解释主要成分或因素;因为它们是线性组合权重(系数),因此单位比例的组件或因子定义或“加载”变量

    (特征向量只是正交变换或投影的系数,在其值内没有“负载”。“负载”是(数量的信息)方差,幅度。提取PC来解释变量的方差。特征值是当我们将特征向量乘以特征值的平方根时,我们会将裸系数乘以方差量,从而使系数成为关联度的度量,变化性。)

  2. 有时,有时会将载荷“旋转”(例如varimax),以促进解释性(另请参见);

  3. “恢复”原始协方差/相关矩阵的负载(另请参见此线程,讨论PCA和FA在这方面的细微差别);

  4. 在PCA中,您可以根据特征向量和载荷来计算组件的值,而在因子分析中,可以从载荷中计算因子得分

  5. 而且,最重要的是,加载矩阵是有用的:其垂直平方和是特征值,组件的方差,而水平平方和是变量“方差”的一部分,这些变量由组件“解释”。

  6. 重新缩放或标准化的负载是负载除以变量的st。偏差; 这是相关性。(如果您的PCA是基于相关的PCA,则负载等于重新缩放的负载,因为基于相关的PCA是标准化变量上的PCA。)重新缩放的负载平方具有pr贡献的含义。组成变量;如果它很高(接近1),则仅由该组件很好地定义变量。

您将看到在PCA和FA中完成的计算示例。

特征向量是单位尺度的载荷。它们是变量正交变换(旋转)为主成分或反向的系数(余弦)。因此,使用它们很容易计算出组件的值(未标准化)。除此之外,它们的使用受到限制。特征向量值平方的含义是变量对pr的贡献。零件; 如果它很高(接近1),则仅由该变量即可很好地定义组件。

尽管特征向量载荷只是两种不同的方法,用于标准化表示双点图上数据列(变量)的相同点的坐标,但将这两项混合使用并不是一个好主意。这个答案解释了为什么。另请参阅


3
在这里不同的领域中可能存在不同的约定吗?我偶然发现了这个问题,因为在我的领域(化学计量学),通常的方法是承受正交载荷。换句话说,比例/大小/进入分数,而不是负荷。载荷等于特征向量矩阵的逆=转置。我用《化学计量学和质量计量手册》和《综合化学计量学》对此进行了仔细检查,我认为这是化学计量学的两个最重要的参考著作。eigenvalues
cbeleites'Mar

1
旁注:在化学计量学中,从原始数据计算分数非常重要,因为许多预测模型都使用PCA旋转(!)进行预处理,因此恕我直言,有限的装载量是我们对PCA的主要用途。
cbeleites

2
@ cbeleites,PCA / FA术语惯例不仅可能在不同的领域(或在不同的软件或书籍中)有所不同-我说它们确实有所不同。在心理学和人类行为中,“负荷”通常是我用名称标记的(负荷在那些领域中非常重要,因为对潜伏性的解释尚在等待之中,而分数可能会缩小,标准化且无人问津)。另一方面,R此站点上的许多用户称PCA的特征向量为“负载”,这可能来自功能文档。
ttnphns

(续)最糟糕的是,“负载”一词在其他技术(LDA,规范相关性等)中使用的含义与在PCA中的含义不完全相同。因此,这个词本身就是妥协的。我同意@amoeba的观点,他假设将其完全删除,并用统计上精确的术语(例如“相关性”或“系数”)代替。另一方面,“特征向量”似乎仅限于svd /特征分解和某些减光方法。还原根本不执行或不执行其经典形式。
ttnphns

1
你一定很混。当您借助负载正确地计算PC分数时,最终将得到简单的标准化组件。您不会使用与特征向量相同的公式来计算这些分数。相反,您应该使用我的#4链接中描述的公式。
ttnphns 2015年

2

关于载荷,系数和特征向量,似乎存在很多困惑。单词loading来自因子分析,它是指数据矩阵回归到因子上的回归系数。它们不是定义因素的系数。参见例如Mardia,Bibby和Kent或其他多元统计教科书。

近年来,单词加载已被用于指示PC系数。在这里,它似乎用来表示系数乘以矩阵特征值的平方根。这些不是PCA中常用的数量。主成分定义为以单位范数系数加权的变量之和。这样,PC的范数等于相应的特征值,而特征值又等于组件所解释的方差。

在因子分析中,因子需要具有单位范数。但是FA和PCA完全不同。极少旋转PC系数,因为它破坏了组件的最佳性。

在FA中,因素不是唯一定义的,可以用不同的方式估算。重要的数量是用于研究协方差矩阵的结构的负载(真实负载)和社区。应该使用PCA或PLS来估计分量。


2
这个答案在某些方面(+1)是正确的,但忽略了FA和PCA两者,它们可以通过因子/成分(以单位比例缩放)来预测明显变量,并且可以比较(尽管是截然不同的)。负荷是该预测的系数。因此,无论是在FA还是在PCA字段中,均使用载荷,载荷是有效的术语,表示相同的意思。
ttnphns

3
同样,遗憾的是,某些来源(尤其是R文档)不小心将特征向量系数称为“负载”,因为它们中没有负载
ttnphns

仅仅是FA和PCA正在估算不同的模型。在FA中,误差在PCA中是正交的,而不是正交的。在比较结果时,我没有多大意义,除非有人在寻找模型。负载量是矩阵的列L,其是用来写协方差矩阵作为S = LL' + C其中C是对角矩阵。它们与PC的系数无关。
Marco Stamazza '16

they have nothing to do with the PCs' coefficients就像在FA中一样,我们在PCA中计算负载。模型不同,但是两种方法中加载的含义相似。
ttnphns

0
In Factor Analysis (using PCA for extraction), we get orthonormal eigen vectors (unit vectors) and corresponding eigenvalues. Now, loadings are defined as 

荷载=正交特征向量⋅(绝对特征值)的平方根在这里,正交特征向量(即术语“正交特征向量”)提供方向,术语“绝对特征值”的平方根提供该值。

通常人们说负载的迹象并不重要,但其大小很重要。但是,如果我们反转一个特征向量的方向(保持其他特征向量的原样),则因子得分将发生变化。因此,进一步分析将受到重大影响。

到目前为止,我仍无法获得令人满意的解决方案。


0

在这件事上似乎有些困惑,所以我将提供一些观察结果,并指出在文献中可以找到最佳答案的地方。

首先,主成分分析和因子分析(FA)关系。通常,根据定义,主成分是正交的,而因子(FA中的类似实体)则不是。简而言之,由于主成分是从数据的纯本征分析中得出的,因此它们以任意但不一定有用的方式跨越要素空间。另一方面,因素代表现实世界中的实体,它们只是巧合而正交(即不相关或独立)。

说我们拿小号观察从每科目。可以将它们排列成具有s行和l列的数据矩阵D。D可以分解为得分矩阵S加载矩阵L,使得D = SLS将具有s行,L将具有l列,每个列的第二维是因子n的数量。因子分析的目的是分解D以揭示潜在分数和因素的方式。L中的载荷告诉我们构成D中观察值的每个分数的比例。

在PCA中,L具有D的相关性或协方差矩阵的特征向量作为其列。这些通常按相应特征值的降序排列。n的值(即要保留在分析中的重要主成分的数量,因此是L的行数)通常是通过使用特征值的斜线图或在以下方法中找到的许多其他方法之一来确定的文献。PCA 中S的列本身构成n个抽象主成分。n的值是数据集的基础维数。

因子分析的目的是通过使用变换矩阵变换所述抽象组件成有意义的因素Ť使得d = STT -1 大号。(ST)是变换后的得分矩阵,而(T -1 L)是变换后的负载矩阵。

上面的解释大致遵循了Edmund R. Malinowski从其出色的化学因子分析法的概念。我强烈建议开头的章节作为该主题的介绍。


这个答案似乎有几个问题。首先,请检查您的公式,它们不正确。其次,您正在尝试讨论FA和PCA之间的区别。为此,我们在CV上有一个单独的长线程,而当前线程是关于负载与特征向量的关系,因此答案放错了位置。第三,您对FA的描述会失真,尤其是在诸如“ FA的目的是分解D”或“ FA的目的是将抽象成分转化为有意义的因素”之类的短语中。
ttnphns

我认为我发布的材料与该线程中的讨论有关,并且提供了载荷与特征向量之间关系的一种解释。
马特·文纳姆

本文总结了我对此主题的研究:onlinelibrary.wiley.com/doi/10.1002/sia.740231303/full
Matt Wenham

好的,也许您的帐户仍然是特别有效的帐户-我不能说不阅读您提供的资源。但是,我要指出的是,PCA中载荷与特征向量之间的“关系”全都存在于问题中。因此几乎没有什么可以“解释”的(解释应该是它们的不同用途)。需要说明的另一点是,Q主要是关于PCA,而不是FA。最后,并不是所有的FA方法都可以处理特征向量,而必须处理载荷。
ttnphns

抱歉,尽管您可以通过Deepdyve.com进行为期两周的试用,但我认为我的论文没有公开可用的版本。Malinowski的书的第一章可从上面的链接获得。这涵盖了基础知识,没有提及特征分析。我必须承认,我不知道没有特征分析就可以完成因子分析,就像我使用的变体(目标因子分析)一样。
马特·文纳姆

-1

我对这些名称感到有些困惑,我在名为《大气科学中的统计方法》的书中进行了搜索,它为我提供了PCA各种术语的摘要,以下是本书中的屏幕截图,希望对您有所帮助。

在此处输入图片说明

在此处输入图片说明

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.