我一直在广泛地搜索互联网...我还没有找到关于如何解释2D对应分析图的非常好的概述。有人可以提供一些建议来解释点之间的距离吗?
也许一个例子会有所帮助,这是我所见过的许多讨论对应分析的网站上的图表。红色三角形代表眼睛的颜色,黑色点代表头发的颜色。
查看上图,您能否对在这些数据中看到的内容做一些陈述。关于三角形和点之间的不同尺寸和关系的兴趣点?
行点对列点的解释,特别是在示例中使用单词“ profile”将很有帮助。
我一直在广泛地搜索互联网...我还没有找到关于如何解释2D对应分析图的非常好的概述。有人可以提供一些建议来解释点之间的距离吗?
也许一个例子会有所帮助,这是我所见过的许多讨论对应分析的网站上的图表。红色三角形代表眼睛的颜色,黑色点代表头发的颜色。
查看上图,您能否对在这些数据中看到的内容做一些陈述。关于三角形和点之间的不同尺寸和关系的兴趣点?
行点对列点的解释,特别是在示例中使用单词“ profile”将很有帮助。
Answers:
首先,在对应分析的情况下,有多种方法来构建所谓的双图。在所有情况下,基本思想都是找到一种方法来显示行单元格和列单元格之间“距离”的最佳2D近似值。换句话说,我们寻求列联表的行和列之间的关系的层次结构(也称为“协调”)。
很简单,CA将与双向表关联的卡方统计量分解为正交因子,以最大化行和列得分之间的间隔(即,从配置文件表计算出的频率)。在这里,您可以看到有一个与PCA一定的联系,但方差保留在CA的措施(或指标)是,这仅取决于柱型材(因为它往往给具有较大的边际值的方式更重要,我们还可以对初始数据进行加权,但这是另一回事了。
这是更详细的答案。corresp()
函数(in MASS
)中提出的实现方式是从CA的角度出发,将CA作为代表行和列的伪编码矩阵的SVD分解(使得,其中N为总样本)。这与规范的相关性分析相符。相反,法国数据分析学院将CA视为PCA的变体,您可以在其中寻求使数据云中的“惯性”最大化的方向。这是通过对角化将惯性矩阵对角化而来的,该惯性矩阵是根据居中和缩放(按边际频率)的双向表计算的,并在此新坐标系中表示行和列轮廓。
如果考虑一个表行和Ĵ = 1 ,... ,Ĵ列中,每行是由它的相应的边际总和这产生了一系列与每一个行条件的频率加权:˚F Ĵ | 我 = Ñ 我Ĵ / Ñ 我⋅。边缘列称为平均轮廓(对于行)。这给了我们一个坐标向量,也称为轮廓(按行)。对于列,我们有˚F 我| Ĵ。在这两种情况下,我们会考虑我行个人资料(有关其重量 ˚F 我⋅)为柱状空间个人和 Ĵ柱型材(关联到自己的体重 ˚F ⋅ Ĵ)作为该行的个人空间。用于计算任何两个个体之间的接近度的量度是 χ 2距离。例如,在两行 i和 i '之间,
chisq.test(tab)$expected-chisq.test(tab)$observed
其实,有可能会为您提供相比于现有的功能增强了CA的几个包MASS
包:ade4,FactoMineR,anacor和CA。
最新的是用于您的特定插图的文章,并且在《统计软件》杂志上发表了一篇论文,解释了其大部分功能:具有二维和三维图形的R中的对应分析:ca Package。
因此,关于眼睛/头发颜色的示例可以通过多种方式复制:
data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab
library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)
library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))
library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib
library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))
在所有情况下,我们在结果双图中所读取的基本上是(我将解释限于解释大部分惯性的第一轴):
法国里昂的生物信息学实验室还有很多其他数据分析资源。这主要是法语,但我认为这对您来说不是太大的问题。首先,以下两个讲义应该很有趣:
vcd
和vcdExtra
R包,后者包括一个漂亮的小插图)。
cor
是与轴的平方相关,ctr
是贡献(必须除以10才能读取为%)。因此,“红色头发”贡献了第二轴惯性的55.1%。从某种意义上说,我发现FactoMineR的输出更“直观”(CA(tab, graph=FALSE)$row$contrib
直接为您提供%)。