如何可视化进行规范相关分析(与主成分分析相比)?


70

典型相关分析(CCA)是与主成分分析(PCA)相关的技术。虽然使用散点图教授PCA或线性回归很容易(请参阅Google图像搜索中的几千个示例),但我还没有看到类似的直观CCA二维示例。如何从视觉上解释线性CCA的作用?


1
CCA用什么方式概括了PCA?我不会说这是它的概括。PCA使用一组变量,CCA使用两个变量(或多个现代实现),这是一个主要区别。
ttnphns

2
好吧,严格来说,相关可能是一个更好的选择。无论如何,PCA在协方差矩阵上运行,而CCA在互协方差矩阵上运行。如果只有一个数据集,则针对其自身计算交叉协方差可以回到更简单的情况(PCA)。

4
好吧,是的,“相关”更好。CCA同时考虑了互协方差和互协方差。
ttnphns

1
有些人建议使用直升机记录仪可视化规范相关性。您可能需要阅读ti.arc.nasa.gov/m/profile/adegani/Composite_Heliographs.pdf

Answers:


97

好吧,我认为相对于主成分分析(PCA)或线性回归,很难给出典型相关分析(CCA)的直观解释。后两者通常通过2D或3D数据散点图进行解释和比较,但是我怀疑CCA是否可以实现。下面,我绘制了一些图片,这些图片可能解释了这三个过程的本质和差异,但是即使使用这些图片(它们是“主题空间”中的矢量表示),也存在无法正确捕获CCA的问题。(有关规范相关分析的代数/算法,请参见此处。)

在轴为变量的空间(通常是散点图)中将个体绘制为点是可变空间。如果以相反的方式绘制-将变量作为点,将个人作为轴-这将是一个主题空间。实际上不需要绘制多个轴,因为该空间的非冗余维数等于非共线变量的数量。可变点与原点相连,并跨越对象空间形成矢量,箭头;所以我们在这里(另请参阅)。在主题空间中,如果变量已居中,则其向量之间的角度的余弦为。在下面的图片中,显示的变量居中(不需要常量)。皮尔逊相关性,向量的长度平方是它们的方差

主要成分

在此处输入图片说明

变量X1X2正相关:它们之间具有锐角。主分量P1P2位于由两个变量跨越的同一空间“平面X”中。分量也是变量,仅相互正交(不相关)。P1的方向应使该分量的两个平方载荷之和最大。和P2,剩余的成分,正交变为P1所有四个向量的平方长度是它们的方差(一个分量的方差是上述平方载荷的总和)。组分负载量是变量到所述部件的坐标- a左侧PIC所示的。每个变量都是两个分量的无误差线性组合,而相应的负荷就是回归系数。并且反之亦然,每个组件是两个变量的无误差的线性组合; 组合中的回归系数由组件到变量上的偏斜坐标- 右图所示的b。实际回归系数的大小为b除以预测成分的长度(标准差)与预测变量的乘积,例如b12/(|P1||X2|)。[注:上述两个线性组合中出现的组件值是标准值st.。开发。=1。这是因为有关其方差的信息已由loads捕获。在非标准成分值方面讲,a的在PIC上述应的特征向量 '值时,推理是相同的其余部分。]

多重回归

在此处输入图片说明

YX1X2YYYXeYYYbbb2/|X2|

典型相关

在PCA中,一组变量会进行自我预测:它们对主要成分进行建模,而主要成分又对变量进行了建模,因此您不会留出预测变量的空间,并且(如果使用所有的成分)预测是没有错误的。在多元回归中,一组变量预测一个无关的变量,因此存在一些预测误差。在CCA中,情况与回归相似,但(1)无关变量是多个变量,形成了自己的变量集;(2)两组同时相互预测(因此相关而不是回归);(3)他们彼此预测的是提取值,是潜在变量,而不是观察到的回归预测值(另请参见)。

在此处输入图片说明

Y1Y2XYVxVyYYYVxVyVyVxϕ之间他们XY用尽多元变量。同样,在CCA中,提取相互正交的最大相关变量对,直到可以预测的所有多元变量为止X1 X2Y1 Y2Vx(2)VxVy(2)Vy)。

有关CCA和PCA +回归之间的差异,另请参见执行CCA与使用PCA构建因变量,然后进行回归


3
+1(从几天前开始)。我真的希望您能为此赢得6次以上的投票;这是CCA运作方式的绝佳概述。
gung

2
这有助于我对CCA有所了解。
Zhenglei 2013年

@Glen_b,我很吃惊,非常高兴您决定为这个答案颁奖。
ttnphns

1
@ttnphns,太棒了。即使我不了解所有内容,但绝对是迄今为止我对CCA的最好解释。而且我认为对发生的事情进行可视化非常重要,因为我知道如果我能够可视化它,我会记住一些东西,而不是通过不同的定理进行曲折。
基督教徒

P1X1X2

2

对我来说,在S. Mulaik的《因素分析的基础》(The Foundations of Factoranalysis)(1972年)一书中读到很有帮助,因为有一种方法可以纯粹地旋转因子负荷矩阵来达到典范的相关性,因此我可以找到到目前为止,我已经从主成分分析和因子分析中了解了这一概念。

也许您对此示例感兴趣(我是在几天前的1998年第一次实现/讨论中重新构建的,以对照SPSS的计算对方法进行交叉检查和重新验证)。看这里。我用我的小矩阵/ PCA-工具Inside-[R]Matmate这一点,但我认为它可以重建在R没有太多精力。


2

这个答案并不能为理解CCA提供视觉帮助,但是Anderson-1958年的第12章对CCA进行了很好的几何解释 [1]的。其要点如下:

Nx1,x2,...,xNpXp×NxiXp(N1)p1p2x1,...,xp1p2xp1+1,...,xp

由于以下原因,我发现此观点很有趣:

  • 它提供了有关CCA规范变量条目的有趣的几何解释。
  • 相关系数与两个CCA投影之间的角度相关。
  • 的比率p1Np2N(N1)N

p1p2并查看它们何时过高,CCA投影相互重叠。

(N1)Nmean(xi)=0)。

[1]安德森(美国),多元统计分析简介。卷 2.纽约:威利,1958年。


1
您可以从那本书中添加图片以直观地看到答案吗?
ttnphns

不幸的是,这本书没有本章的图片(实际上,我认为整本书中没有任何数字)。
idnavid

@ttnphns我前几天花了一些时间,整理了一个小例子来说明这一点。谢谢你的建议!
idnavid

1

教授统计学的最好方法是使用数据。多元统计技术通常使用不直观的矩阵变得非常复杂。我会用Excel解释CCA。创建两个样本,添加新变量(基本上是列)并显示计算结果。就CCA的矩阵结构而言,最好的方法是先讲授双变量案例,然后再进行扩展。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.