变量与PCA分量(在双图/加载图上)的正确关联度量是什么?


17

FactoMineR用来将我的测量数据集减少到潜在变量。

![变量图](http://f.cl.ly/items/071s190V1G3s1u0T0Y3M/pca.png)

变量地图上面很清楚我解释,但是当它涉及到的变量和组件1.纵观可变地图之间的关联我很困惑,ddp并且cov非常接近在地图的组件,ddpAbs是一个远一点远。但是,这不是相关性显示的内容:

$Dim.1
$Dim.1$quanti
        correlation      p.value
jittAbs   0.9388158 1.166116e-11
rpvi      0.9388158 1.166116e-11
sd        0.9359214 1.912641e-11
ddpAbs    0.9327135 3.224252e-11
rapAbs    0.9327135 3.224252e-11
ppq5      0.9319101 3.660014e-11
ppq5Abs   0.9247266 1.066303e-10
cov       0.9150209 3.865897e-10
npvi      0.8853941 9.005243e-09
ddp       0.8554260 1.002460e-07
rap       0.8554260 1.002460e-07
jitt      0.8181207 1.042053e-06
cov5_x    0.6596751 4.533596e-04
ps13_20  -0.4593369 2.394361e-02
ps5_12   -0.5237125 8.625918e-03

然后是sin2数量,rpvi例如,它是高度 ,但是该度量根本不是最接近第一个组件的变量。

Variables
           Dim.1    ctr   cos2    Dim.2    ctr   cos2  
rpvi    |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
npvi    |  0.885  7.227  0.784 |  0.075  0.267  0.006 |
cov     |  0.915  7.719  0.837 | -0.006  0.001  0.000 |
jittAbs |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
jitt    |  0.818  6.171  0.669 |  0.090  0.380  0.008 |
rapAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
rap     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
ppq5Abs |  0.925  7.884  0.855 |  0.091  0.392  0.008 |
ppq5    |  0.932  8.007  0.868 | -0.035  0.057  0.001 |
ddpAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
ddp     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
pa      |  0.265  0.646  0.070 | -0.857 34.614  0.735 |
ps5_12  | -0.524  2.529  0.274 |  0.664 20.759  0.441 |
ps13_20 | -0.459  1.945  0.211 |  0.885 36.867  0.783 |
cov5_x  |  0.660  4.012  0.435 |  0.245  2.831  0.060 |
sd      |  0.936  8.076  0.876 |  0.056  0.150  0.003 |

那么,当变量和第一个组件之间的关联出现时,我应该怎么看?


1
地图上的Althougt点(看起来像是加载图)杂乱无章,我想说该图很好地对应于“相关”输出。这些“相关性”是Dim1上的坐标。它们,即载荷,是因子和变量之间的相关性(当您基于标准化数据进行分析=基于变量与变量的相关性时)。
ttnphns 2014年

除了以下答案外,请检查答案以及其中的其他链接。
ttnphns

Answers:


25

PCA或因子分析的加载图的说明。

加载图将变量显示为主要成分(或因子)空间中的点。变量的坐标通常是载荷。(如果在相同的组件空间中正确地将加载图与数据案例的相应散点图结合起来,那将是双图。)

让我们有3个以某种方式相关的变量WU。我们将它们居中并执行PCA,从三个中提取两个第一主成分:F 1F 2。我们使用荷载作为坐标来绘制下面的荷载图载荷是非标准化特征向量的元素,即具有相应分量方差或特征值的特征向量。VWUF1F2

在此处输入图片说明

加载图是图片上的平面。让我们只考虑变量。在载荷图绘制习惯的箭头是什么标记^ h '这里; 坐标a 1a 2分别是VF 1F 2的载荷(请注意,从术语上说“分量载荷变量”更正确,反之亦然)。Vha1a2VF1F2

箭头是向量h在分量平面上的投影,向量h是变量V在变量空间中由VWU跨越的真实位置。向量的平方长度,ħ 2,是方差一个V。而ħ ' 2方差的部分说明由两个分量。hhVVWUh2aVh2

加载,相关,计划相关。由于变量在提取成分之前居中,因此V和成分F 1之间的皮尔逊相关性。这不应该混淆与余弦α上的负载曲线图,这是另一种量:它是部件之间的Pearson相关˚F 1和可变这里矢量作为ħ '。作为变量,h '是线性回归中(标准化的)分量对V的预测(与此处的线性回归几何图形进行比较)cosϕVF1个cosαF1个HHV),其中荷载是回归系数(当提取的分量保持正交时)。一种

进一步。我们可能还记得(三角)是。它可以被理解为标量积向量之间V和单位长度矢量˚F 1ħ 1 COS φF 1被设置为单位方差矢量,因为除了它所解释V的方差(由量h '表示)之外,它没有自己的方差:即F 1一种1个=HcosϕVF1个H1个cosϕF1个VHF1个是从V,W,U提取的,而不是从外部邀请的实体。然后,很显然,协方差之间V标准化,单元标度b(以组小号1=一种1个=v一种[RVv一种[RF1个[R=H1个cosϕVb)分量F1。该协方差可以直接与输入变量之间的协方差进行比较。例如,VW之间的协方差将是它们的向量长度乘以它们之间的余弦的乘积。s1个=v一种[RF1个=1个F1个Vw ^

综上所述:加载可被视为所述标准化组件和所观察到的变量之间的协方差ħ 1 COS φ,或等效的标准化组件和解释(由所有定义的情节的组件)之间的图像变量,ħ '1 余弦α。即余弦α可以被称为V-F1相关投影上的F1-F2元子空间。一种1个H1个cosϕH1个cosαcosα

变量和分量之间的上述相关关系,也称为标准化负载重新缩放负载。因为它在[-1,1]范围内,所以便于解释组件。cosϕ=一种1个/H

与特征向量的关系。重新缩放装载与混淆特征向量元件,其-因为我们知道它-是一个变量,主要成分之间的角度的余弦值。回想一下,加载是本征矢量元素,该元素按组件的奇异值(本征值的平方根)放大。即对于我们图的变量Va 1 = e 1 s 1,其中s 1是st。F 1的偏差(不是1,而是原始值,即奇异值)cosϕV一种1个=Ë1个s1个s1个1个F1个潜在变量。然后得出特征向量元素,而不是cosϕ本身。当我们回想起我们所处的空间表示形式时,围绕两个词“余弦”的困惑消失了。特征向量值变量作为轴到pr的旋转角度的余弦值。组件作为变量空间(又称为散点图视图)内的轴,例如here。而COSφ对我们的载荷图是余弦相似性度量的变量作为矢量和PR之间。组件也可以作为向量,如果您愿意(也可以作为绘图上的轴绘制),-因为我们目前在主题空间中e1=a1s1=hs1cosϕcosϕcosϕ (这是加载图),其中相关变量是矢量的扇形-不是正交轴,-矢量角是关联的度量-而不是空基旋转。

负载是变量与单位缩放的分量之间的角度(即标量乘积类型)关联度量,而重新缩放的负载是将变量的比例减小为单位的标准化负载,而特征向量系数是其中组件“超标”,即达到比例(而不是1);或者,可以将其视为重新缩放的负载,其中将变量的比例调整为h / s(而不是1)。1/sh/s

那么,变量和组件之间的关联是什么?您可以选择自己喜欢的东西。它可以是负载(协方差与单元缩放的分量) ; 在重新缩放的装载COS φ(=可变分量相关); 之间的相关性的图像(预测)和组分(=投影相关COS α)。如果需要,您甚至可以选择特征向量系数e = a / s(尽管我想知道这可能是原因)。或发明自己的方法。a cosϕcosαe=a/s

特征向量值平方具有变量对pr的贡献的含义。零件。重新定标的荷载平方具有pr贡献的含义。组成变量。

基于相关性与PCA的关系。如果我们不仅通过PCA分析中心变量,还分析了标准化变量(中心变量,然后是单位方差缩放的变量),则三个变量矢量(而不是它们在平面上的投影)将具有相同的单位长度。然后自动得出结论,负载是变量和组件之间的相关性,而不是协方差。但是,相关性将不等于“标准化加载” 所述的因变量标准化的PCA上面的图片(基于只是中心变量的分析),(相关性为基础的PCA)产生不同的组分比中心变量的PCA(基于协方差的PCA)。在基于相关的PCA 一个1cosϕ 因为 ^ h = 1,但主要成分是不一样的,因为我们从基于协方差-PCA得到主成分()。a1=cosϕh=1

因子分析中,加载图与PCA具有基本相同的概念和解释。唯一(但重要)的区别是的实质。在因子分析中,ħ ' -称为那么变量的“共同性” -是受解释它的方差的部分共同的因素,其是专门为负责的相关性变量。在PCA中解释的部分h hh h是总的“混合物”-部分代表变量之间的相关性,部分代表不相关性。通过因子分析,图片上的负载平面的方向将有所不同(实际上,它甚至会超出我们3d变量的空间,延伸到我们无法绘制的第4维;负载平面不会成为我们的子空间由和其他两个变量构成的3d空间,投影h '将具有另一个长度和另一个角度α。(PCA和因子分析之间的理论差异在这里通过主题空间表示和在这里通过可变空间表示来进行几何解释。)Vhα


在评论中回复@Antoni Parellada的请求。无论您是说方差还是散点(偏差SS),这都是等效的:方差=散点 /n1,其中n是样本量。因为我们正在处理一个具有相同n的数据集,所以该常数在公式中不变。如果X是数据(与变量V,W,U为中心),则它的(A)的特征分解协方差矩阵产生的特征值相同(组分方差)和特征向量作为(B)散射矩阵特征分解 X ' Xa,b/(n1)nnXXX的初始分割后获得的X因子。在此之后,装载的式(看便知的中间部分),一个1=ħ小号1COSφ,术语ħST。偏差ñ-1个一种1个=Hs1个cosϕH (A)中的 v a r V,但(B)中的根散度(即范数)V。术语小号1,其等于1在标准化˚F1组件的ST。偏差v一种[RVVs11F1(a)中的 v a r F 1,但(B)中的根散射为F1。最后,COSφ=- [R是其中相关是不敏感到的使用ñ-1在其计算。因此,我们仅概念上讲方差(A)或散点(B),而值本身在两种情况下在公式中均保持不变。varF1F1cosϕ=rn1个


这个答案很好,并且有很多信息,但是我认为该问题的实际答案将在于“ 是什么意思?”。α
shadowtalker 2014年

@ssdecontrol,我为此添加了一行。
ttnphns 2014年

我一直在读您的文章的话题,和我卡上看似最为明显的部分,当你说...“显然,。由于r=cosϕa1=varVvarF1r=h1cosϕr=cosϕ,得出varF1=1。然而,ħ=V=varV=h,而h=V=x2。我想念什么?varV=x2n1
安东尼·帕雷拉达

1
@AntoniParellada,请检查脚注。
ttnphns

1
我读了您的附录,它很有启发性。谢谢!如果不选择特定的句子,它将解释从答案的F 1的单位方差到单位范数定标的过渡,这以前给我带来了一些困难。F1个
安东尼·帕雷拉达
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.