主成分分析中双峰的解释


30

我遇到了一个很好的教程:《使用R进行统计分析的手册》。第13章。主成分分析:奥林匹克七项全能,其中涉及如何用R语言进行PCA。我不理解图13.3的解释:

双图

因此,我正在绘制第一个特征向量与第二个特征向量。这意味着什么?假设对应于第一特征向量的特征值解释了数据集中60%的变化,第二特征值-特征向量解释了20%的变化。将它们相互绘制意味着什么?


Answers:


22

PCA是分析给定相关矩阵结构的多种方法之一。通过构造,第一个主轴是在将数据投影到一条线(假设您有变量,表示维空间中的方向)时最大化方差(由其特征值反映)的轴,第二个是与它正交,并且仍然使剩余方差最大化。这就是为什么在投影到平面上时,使用前两个轴应能更好地逼近原始变量空间(例如,矩阵值为)。ppXñ×p

主成分只是原始变量的线性组合。因此,绘制个人因素评分(定义为,其中是任何主要成分的负荷向量)的绘图可能有助于突出显示同质个体的组,或者在同时考虑所有变量时解释一个人的整体得分。换句话说,这是一种相对于某人在上的价值来总结其位置的方法Xüüp变量或其组合。以您的情况而言,HSAUR中的图13.3显示,Joyner-Kersee(Jy-K)在第1轴上的得分高(负),这表明他在所有赛事中的表现都相当不错。相同的推理路线适用于解释第二条轴。我对数字进行了很短的了解,因此我将不赘述,我的解释当然是肤浅的。我想您会在HSAUR教科书中找到更多信息。在这里值得注意的是,变量和个体都显示在同一张图中(这称为双线图)),这有助于在查看个人位置时解释阶乘轴。通常,我们将变量绘制到一个所谓的相关圆中(其中任何两个变量在这里表示为矢量的角度都反映了它们的实际成对相关性,因为)。[RX1个X2=cos2X1个X2

但是,我认为,您最好开始阅读一些有关多变量分析的入门书,以深入了解基于PCA的方法。例如,BS艾维特关于这个主题,写了一个极好的教材的R和S-PLUS ®伴侣多变量分析,你可以检查配套网站的说明。还有其他一些出色的R软件包可用于应用多元数据分析,例如ade4FactoMineR


我可能是错的,但是两个向量之间不是成对相关不是吗?[RX1个X2=cosX1个X2cos2X1个X2
hlinee

21

该图显示:

  • 每个案例(即运动员)在前两个主要成分上的得分
  • 在前两个主要组成部分上加载每个变量(即每个体育赛事)。

左轴和底轴显示[归一化]主成分评分;上轴和右轴显示了载荷。

通常,它假定两个成分解释了足够数量的方差,以提供对案例和变量结构的有意义的可视化表示。

您可以查看该空间中哪些事件紧密相关。在这种情况下,这可能意味着擅长一项赛事的运动员也可能也擅长其他近端赛事。或者,您可以使用该图查看哪些事件较远。例如,标枪似乎是一个异常值,是定义第二个主要成分的主要事件。也许其他类型的运动员擅长标枪,而其他大多数项目都不擅长。

当然,关于实质性解释可以说更多。



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.