PCA或因子分析的加载图的说明。
加载图将变量显示为主要成分(或因子)空间中的点。变量的坐标通常是载荷。(如果在相同的组件空间中正确地将加载图与数据案例的相应散点图结合起来,那将是双图。)
让我们有3个以某种方式相关的变量,W,U。我们将它们居中并执行PCA,从三个中提取两个第一主成分:F 1和F 2。我们使用荷载作为坐标来绘制下面的荷载图。载荷是非标准化特征向量的元素,即具有相应分量方差或特征值的特征向量。VWUF1个F2
加载图是图片上的平面。让我们只考虑变量。在载荷图绘制习惯的箭头是什么标记^ h '这里; 坐标a 1,a 2分别是V的F 1和F 2的载荷(请注意,从术语上说“分量载荷变量”更正确,反之亦然)。VH′一种1个一种2VF1个F2
箭头是向量h在分量平面上的投影,向量h是变量V在变量空间中由V,W,U跨越的真实位置。向量的平方长度,ħ 2,是方差一个的V。而ħ ' 2是方差的部分说明由两个分量。H′HVVw ^üH2一种VH' 2
加载,相关,计划相关。由于变量在提取成分之前居中,因此是V和成分F 1之间的皮尔逊相关性。这不应该混淆与余弦α上的负载曲线图,这是另一种量:它是部件之间的Pearson相关˚F 1和可变这里矢量作为ħ '。作为变量,h '是线性回归中(标准化的)分量对V的预测(与此处的线性回归几何图形进行比较)cosϕVF1个cosαF1个H′H′V),其中荷载是回归系数(当提取的分量保持正交时)。一种
进一步。我们可能还记得(三角)是。它可以被理解为标量积向量之间V和单位长度矢量˚F 1:ħ ⋅ 1 ⋅ COS φ。F 1被设置为单位方差矢量,因为除了它所解释的V的方差(由量h '表示)之外,它没有自己的方差:即F 1一种1个= ħ ⋅ COSϕVF1个ħ ⋅ 1 ⋅ COSϕF1个VH′F1个是从V,W,U提取的,而不是从外部邀请的实体。然后,很显然,是协方差之间V和标准化,单元标度b(以组小号1= √一种1个= v a rV⋅ v 一个[RF1个----------√⋅ - [R = H ^ ⋅ 1 ⋅ COSϕVb)分量F1。该协方差可以直接与输入变量之间的协方差进行比较。例如,V和W之间的协方差将是它们的向量长度乘以它们之间的余弦的乘积。s1个= v a rF1个-----√= 1F1个Vw ^
综上所述:加载可被视为所述标准化组件和所观察到的变量之间的协方差ħ ⋅ 1 ⋅ COS φ,或等效的标准化组件和解释(由所有定义的情节的组件)之间的图像变量,ħ ' ⋅ 1 ⋅ 余弦α。即余弦α可以被称为V-F1相关投影上的F1-F2元子空间。一种1个ħ ⋅ 1 ⋅ COSϕH′⋅ 1 ⋅ COSαcosα
变量和分量之间的上述相关关系,也称为标准化负载或重新缩放负载。因为它在[-1,1]范围内,所以便于解释组件。cosϕ = a1个/小时
与特征向量的关系。重新缩放装载应不与混淆特征向量元件,其-因为我们知道它-是一个变量,主要成分之间的角度的余弦值。回想一下,加载是本征矢量元素,该元素按组件的奇异值(本征值的平方根)放大。即对于我们图的变量V:a 1 = e 1 s 1,其中s 1是st。F 1的偏差(不是1,而是原始值,即奇异值)cosϕV一种1个= e1个s1个s1个1个F1个潜在变量。然后得出特征向量元素,而不是cosϕ本身。当我们回想起我们所处的空间表示形式时,围绕两个词“余弦”的困惑消失了。特征向量值是变量作为轴到pr的旋转角度的余弦值。组件作为变量空间(又称为散点图视图)内的轴,例如here。而COSφ对我们的载荷图是余弦相似性度量的变量作为矢量和PR之间。组件也可以作为向量,如果您愿意(也可以作为绘图上的轴绘制),-因为我们目前在主题空间中Ë1个= 一个1个s1个= 小时s1个cosϕcosϕcosϕ (这是加载图),其中相关变量是矢量的扇形-不是正交轴,-矢量角是关联的度量-而不是空基旋转。
负载是变量与单位缩放的分量之间的角度(即标量乘积类型)关联度量,而重新缩放的负载是将变量的比例减小为单位的标准化负载,而特征向量系数是其中组件“超标”,即达到比例(而不是1);或者,可以将其视为重新缩放的负载,其中将变量的比例调整为h / s(而不是1)。1 /秒时/秒
那么,变量和组件之间的关联是什么?您可以选择自己喜欢的东西。它可以是负载(协方差与单元缩放的分量) ; 在重新缩放的装载COS φ(=可变分量相关); 之间的相关性的图像(预测)和组分(=投影相关COS α)。如果需要,您甚至可以选择特征向量系数e = a / s(尽管我想知道这可能是原因)。或发明自己的方法。一种 cosϕcosαe = 一个/ s
特征向量值平方具有变量对pr的贡献的含义。零件。重新定标的荷载平方具有pr贡献的含义。组成变量。
基于相关性与PCA的关系。如果我们不仅通过PCA分析中心变量,还分析了标准化变量(中心变量,然后是单位方差缩放的变量),则三个变量矢量(而不是它们在平面上的投影)将具有相同的单位长度。然后自动得出结论,负载是变量和组件之间的相关性,而不是协方差。但是,相关性将不等于“标准化加载” 所述的因变量标准化的PCA上面的图片(基于只是中心变量的分析),(相关性为基础的PCA)产生不同的组分比中心变量的PCA(基于协方差的PCA)。在基于相关的PCA 一个1cosϕ 因为 ^ h = 1,但主要成分是不一样的,因为我们从基于协方差-PCA得到主成分(读,读)。一种1个= cosϕh = 1
在因子分析中,加载图与PCA具有基本相同的概念和解释。唯一(但重要)的区别是的实质。在因子分析中,ħ ' -称为那么变量的“共同性” -是受解释它的方差的部分共同的因素,其是专门为负责的相关性变量。在PCA中解释的部分h ′H′H′ H′是总的“混合物”-部分代表变量之间的相关性,部分代表不相关性。通过因子分析,图片上的负载平面的方向将有所不同(实际上,它甚至会超出我们3d变量的空间,延伸到我们无法绘制的第4维;负载平面不会成为我们的子空间由和其他两个变量构成的3d空间,投影h '将具有另一个长度和另一个角度α。(PCA和因子分析之间的理论差异在这里通过主题空间表示和在这里通过可变空间表示来进行几何解释。)VH′α
在评论中回复@Antoni Parellada的请求。无论您是说方差还是散点(偏差SS),这都是等效的:方差=散点 /(n−1),其中n是样本量。因为我们正在处理一个具有相同n的数据集,所以该常数在公式中不变。如果X是数据(与变量V,W,U为中心),则它的(A)的特征分解协方差矩阵产生的特征值相同(组分方差)和特征向量作为(B)散射矩阵特征分解 X ' X一,b/(n−1)ññXX′X的初始分割后获得的由√X因子。在此之后,装载的式(看便知的中间部分),一个1=ħ⋅小号1⋅COSφ,术语ħ是ST。偏差 √n − 1-----√一种1个= ħ ⋅ 小号1个⋅ COSϕH (A)中的 v a r V,但(B)中的根散度(即范数)“V”。术语小号1,其等于1,是在标准化˚F1组件的ST。偏差 √v 一个[RV----√∥V∥s11F1(a)中的 v a r F 1,但(B)中的根散射为“F1”。最后,COSφ=- [R是其中相关是不敏感到的使用ñ-1在其计算。因此,我们仅在概念上讲方差(A)或散点(B),而值本身在两种情况下在公式中均保持不变。varF1−−−−−√∥F1∥cosϕ=rn−1