解释2D对应分析图


19

我一直在广泛地搜索互联网...我还没有找到关于如何解释2D对应分析图的非常好的概述。有人可以提供一些建议来解释点之间的距离吗?

也许一个例子会有所帮助,这是我所见过的许多讨论对应分析的网站上的图表。红色三角形代表眼睛的颜色,黑色点代表头发的颜色。

替代文字

查看上图,您能否对在这些数据中看到的内容做一些陈述。关于三角形和点之间的不同尺寸和关系的兴趣点?

行点对列点的解释,特别是在示例中使用单词“ profile”将很有帮助。


1
除了下面@ CHL出色的帐户,也可以考虑这个一个考虑简单的CA和PCA为“双标图分析”的只是形式。
ttnphns

Answers:


24

首先,在对应分析的情况下,有多种方法来构建所谓的双图。在所有情况下,基本思想都是找到一种方法来显示行单元格和列单元格之间“距离”的最佳2D近似值。换句话说,我们寻求列联表的行和列之间的关系的层次结构(也称为“协调”)。

很简单,CA将与双向表关联的卡方统计量分解为正交因子,以最大化行和列得分之间的间隔(即,从配置文件表计算出的频率)。在这里,您可以看到有一个与PCA一定的联系,但方差保留在CA的措施(或指标)是,这仅取决于柱型材(因为它往往给具有较大的边际值的方式更重要,我们还可以对初始数据进行加权,但这是另一回事了。χ2

这是更详细的答案。corresp()函数(in MASS)中提出的实现方式是从CA的角度出发,将CA作为代表行和列的伪编码矩阵的SVD分解(使得,其中N为总样本)。这与规范的相关性分析相符。相反,法国数据分析学院将CA视为PCA的变体,您可以在其中寻求使数据云中的“惯性”最大化的方向。这是通过对角化将惯性矩阵对角化而来的,该惯性矩阵是根据居中和缩放(按边际频率)的双向表计算的,并在此新坐标系中表示行和列轮廓。[RŤC=ññ

如果考虑一个表行和Ĵ = 1 ... Ĵ列中,每行是由它的相应的边际总和这产生了一系列与每一个行条件的频率加权:˚F Ĵ | = Ñ Ĵ / Ñ 。边缘列称为平均轮廓(对于行)。这给了我们一个坐标向量,也称为轮廓(按行)。对于列,我们有˚F | Ĵ一世=1个一世Ĵ=1个ĴFĴ|一世=ñ一世Ĵ/ñ一世。在这两种情况下,我们会考虑行个人资料(有关其重量 ˚F )为柱状空间个人和 Ĵ柱型材(关联到自己的体重 ˚F Ĵ)作为该行的个人空间。用于计算任何两个个体之间的接近度的量度是 χ 2距离。例如,在两行 i i '之间F一世|Ĵ=ñ一世Ĵ/ñĴ一世F一世ĴFĴχ2一世一世

dχ22一世一世=Ĵ=1个ĴññĴñ一世Ĵñ一世-ñ一世Ĵñ一世2

χ2H0ñ一世×ñĴ/ñ一世Ĵ

χ2cos2一世Ĵχ2chisq.test(tab)$expected-chisq.test(tab)$observed

χ2ñϕ2

其实,有可能会为您提供相比于现有的功能增强了CA的几个包MASS包:ade4FactoMineRanacorCA

最新的是用于您的特定插图的文章,并且在《统计软件》杂志上发表了一篇论文,解释了其大部分功能:具有二维和三维图形的R中的对应分析:ca Package

因此,关于眼睛/头发颜色的示例可以通过多种方式复制:

data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab

library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)

library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))

library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig  # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib

library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))

在所有情况下,我们在结果双图中所读取的基本上是(我将解释限于解释大部分惯性的第一轴):

  • 第一个轴突出显示了浅色和深色头发之间以及蓝色和棕色眼睛之间的明显对立。
  • 金色头发的人往往也有蓝眼睛,黑色头发的人往往有棕色的眼睛。

法国里昂的生物信息学实验室还有很多其他数据分析资源。这主要是法语,但我认为这对您来说不是太大的问题。首先,以下两个讲义应该很有趣:

ķ


1
@Brandon第一轴是两种模式的“主导”轴(亮->暗),但我们也可以看到第一轴与蓝色和绿色的眼睛相对于棕色和淡褐色的眼睛(它们的坐标相反),红头发/绿眼睛的组合-很少见-主要贡献于第二因子轴。由于该轴仅解释了总惯量的9.5%,因此很难得出明确的结论(尤其是遗传假设)。
chl 2010年

1
@Brandon还有两个参考文献(这次是英语):PBIL课程(j.mp/cHZT7X)和Michael Friendly的资源(j.mp/cYHyVn + vcdvcdExtraR包,后者包括一个漂亮的小插图)。
chl 2010年

2
@Brandon是的,一种形式=您变量的一种类别。对于第二个问题,cor是与轴的平方相关,ctr是贡献(必须除以10才能读取为%)。因此,“红色头发”贡献了第二轴惯性的55.1%。从某种意义上说,我发现FactoMineR的输出更“直观”(CA(tab, graph=FALSE)$row$contrib直接为您提供%)。
chl 2010年

1
@chl:哇,对于一个不了解CCA或“法国方式”的人来说,这是一本好书!非常感谢。我还通过一些可能感兴趣的谷歌搜索发现了这一点:www-stat.stanford.edu/~susan/papers/dfc.pdf
ars

1
@ars(+1)感谢您的链接(不知道这本专论,它看起来很有趣)。对于最近的发展,我最好的建议实际上是Jan de Leeuw的所有论文,以及这两本书:Greenacre的多重对应分析和相关方法,以及Le Roux和Rouanet的几何数据分析:从对应分析到结构化数据分析(法语) 。
chl 2010年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.