典型相关分析(CCA)是与主成分分析(PCA)相关的技术。虽然使用散点图教授PCA或线性回归很容易(请参阅Google图像搜索中的几千个示例),但我还没有看到类似的直观CCA二维示例。如何从视觉上解释线性CCA的作用?
典型相关分析(CCA)是与主成分分析(PCA)相关的技术。虽然使用散点图教授PCA或线性回归很容易(请参阅Google图像搜索中的几千个示例),但我还没有看到类似的直观CCA二维示例。如何从视觉上解释线性CCA的作用?
Answers:
好吧,我认为相对于主成分分析(PCA)或线性回归,很难给出典型相关分析(CCA)的直观解释。后两者通常通过2D或3D数据散点图进行解释和比较,但是我怀疑CCA是否可以实现。下面,我绘制了一些图片,这些图片可能解释了这三个过程的本质和差异,但是即使使用这些图片(它们是“主题空间”中的矢量表示),也存在无法正确捕获CCA的问题。(有关规范相关分析的代数/算法,请参见此处。)
在轴为变量的空间(通常是散点图)中将个体绘制为点是可变空间。如果以相反的方式绘制-将变量作为点,将个人作为轴-这将是一个主题空间。实际上不需要绘制多个轴,因为该空间的非冗余维数等于非共线变量的数量。可变点与原点相连,并跨越对象空间形成矢量,箭头;所以我们在这里(另请参阅)。在主题空间中,如果变量已居中,则其向量之间的角度的余弦为。在下面的图片中,显示的变量居中(不需要常量)。皮尔逊相关性,向量的长度平方是它们的方差
变量和正相关:它们之间具有锐角。主分量和位于由两个变量跨越的同一空间“平面X”中。分量也是变量,仅相互正交(不相关)。的方向应使该分量的两个平方载荷之和最大。和,剩余的成分,正交变为所有四个向量的平方长度是它们的方差(一个分量的方差是上述平方载荷的总和)。组分负载量是变量到所述部件的坐标- 左侧PIC所示的。每个变量都是两个分量的无误差线性组合,而相应的负荷就是回归系数。并且反之亦然,每个组件是两个变量的无误差的线性组合; 组合中的回归系数由组件到变量上的偏斜坐标- 右图所示的。实际回归系数的大小为除以预测成分的长度(标准差)与预测变量的乘积,例如。[注:上述两个线性组合中出现的组件值是标准值st.。开发。=1。这是因为有关其方差的信息已由loads捕获。在非标准成分值方面讲,的在PIC上述应的特征向量 '值时,推理是相同的其余部分。]
在PCA中,一组变量会进行自我预测:它们对主要成分进行建模,而主要成分又对变量进行了建模,因此您不会留出预测变量的空间,并且(如果使用所有的成分)预测是没有错误的。在多元回归中,一组变量预测一个无关的变量,因此存在一些预测误差。在CCA中,情况与回归相似,但(1)无关变量是多个变量,形成了自己的变量集;(2)两组同时相互预测(因此相关而不是回归);(3)他们彼此预测的是提取值,是潜在变量,而不是观察到的回归预测值(另请参见)。
之间他们用尽多元变量。同样,在CCA中,提取相互正交的最大相关变量对,直到可以预测的所有多元变量为止 )。
有关CCA和PCA +回归之间的差异,另请参见执行CCA与使用PCA构建因变量,然后进行回归。
对我来说,在S. Mulaik的《因素分析的基础》(The Foundations of Factoranalysis)(1972年)一书中读到很有帮助,因为有一种方法可以纯粹地旋转因子负荷矩阵来达到典范的相关性,因此我可以找到到目前为止,我已经从主成分分析和因子分析中了解了这一概念。
也许您对此示例感兴趣(我是在几天前的1998年第一次实现/讨论中重新构建的,以对照SPSS的计算对方法进行交叉检查和重新验证)。看这里。我用我的小矩阵/ PCA-工具Inside-[R]
及Matmate
这一点,但我认为它可以重建在R
没有太多精力。
这个答案并不能为理解CCA提供视觉帮助,但是Anderson-1958年的第12章对CCA进行了很好的几何解释 [1]的。其要点如下:
由于以下原因,我发现此观点很有趣:
)。
[1]安德森(美国),多元统计分析简介。卷 2.纽约:威利,1958年。