在全基因组关联研究(GWAS)中:
- 主要成分是什么?
- 为什么使用它们?
- 如何计算?
- 是否可以在不使用PCA的情况下进行全基因组关联研究?
在全基因组关联研究(GWAS)中:
Answers:
在这种特定情况下,PCA主要用于解决正在调查的SNP(或其他DNA标记,尽管我只熟悉SNP病例)上等位基因分布的群体特异性变异。这种“种群亚结构”主要是由于遗传上遥远的祖先(例如日本人和黑非洲人或欧洲人)中次要等位基因频率的变化而引起的。总体结构和特征分析很好地解释了总体思路Patterson等人。(PLoS Genetics 2006,2(12))或《柳叶刀》杂志的遗传流行病学特刊(2005,366;大多数文章都可以在网上找到,首先是Cordell&Clayton,Genetic Association Studies)。
主轴的构建遵循经典的PCA方法,该方法应用于观察到的基因型(AA,AB,BB;在所有情况下,B为次要等位基因)的比例矩阵(个体为SNP);可以应用额外的归一化来解决人口漂移。所有这些都假定次要等位基因的频率(取值{0,1,2})可以视为数字,也就是说,我们在加性模型(也称为等位基因剂量)下或任何有意义的等效模型下工作。由于连续的正交PC将考虑最大方差,因此这提供了一种方法来突出显示次要等位基因频率水平不同的个体组。用于此目的的软件称为Eigenstrat。也可以在egscore()
从功能GenABEL ř包(也参见GenABEL.org)。值得注意的是,提出了其他方法来检测人口子结构,特别是基于模型的聚类重建(请参阅最后的参考资料)。通过浏览Hapmap项目以及Bioconductor项目中的可用教程,可以找到更多信息。(在Google上搜索Vince J Carey或David Clayton的漂亮教程)。
在前20个主轴中的至少一个上 SD的;从某种意义上讲,这相当于“增白”了样品。请注意,对基因型距离的任何此类度量(在使用“多维缩放”代替PCA时也是如此)将允许发现亲戚或兄弟姐妹。该砰砰软件提供更多的方法,请参阅节人口分层在线帮助。
考虑到本征分析可以揭示个体水平上的某些结构,因此在尝试解释给定表型(或可能根据二元标准定义的任何分布,例如疾病或病例控制)的解释变异时,我们可以使用此信息情况)。具体来说,我们可以使用PC来调整我们的分析(即个体的因子评分),如Price等人的“ 主成分分析校正了全基因组关联研究中的分层 ”所示。(Nature Genetics 2006,38(8))和后来的工作(在欧洲内部的Genes镜像地理学中有一张很好的图片显示了欧洲遗传变异的轴心; Nature 2008; 图1A复制如下)。还要注意,另一种解决方案是进行分层分析(通过在GLM中包括种族),例如,在snpMatrix软件包中可以很容易地获得这种分析。
参考文献