在全基因组关联研究中,主要成分是什么?


20

全基因组关联研究(GWAS)中:

  1. 主要成分是什么?
  2. 为什么使用它们?
  3. 如何计算?
  4. 是否可以在不使用PCA的情况下进行全基因组关联研究?

1
在问这些问题之前,您是否在此站点上搜索“ PCA”或浏览“ PCA”标签?您的大多数问题已在此处得到解答。
Whuber

1
@whuber我认为,OP在建模给定结果(连续表型或病例/对照研究)和DNA标记(SNP)时,正在寻求使用PCA来解释和调整人群分层的方法。我在这里给了一个参考:stats.stackexchange.com/questions/1708/variation-in-pca-weights/...
chl

1
GWAS当然可以在没有主要组件的情况下完成。在没有人口分层的情况下,您需要做的只是数千个检验或数千个卡方检验。Ť
一站式

@onestop(+1)我会认为您回答了第二个问题,我自己的回答中甚至没有考虑。
chl

@onestop,如果仅按性别/种族分类怎么办?你能详细说明你的答案吗?
suprvisr 2011年

Answers:


27

在这种特定情况下,PCA主要用于解决正在调查的SNP(或其他DNA标记,尽管我只熟悉SNP病例)上等位基因分布的群体特异性变异。这种“种群亚结构”主要是由于遗传上遥远的祖先(例如日本人和黑非洲人或欧洲人)中次要等位基因频率的变化而引起的。总体结构和特征分析很好地解释了总体思路Patterson等人。(PLoS Genetics 2006,2(12))或《柳叶刀》杂志的遗传流行病学特刊(2005,366;大多数文章都可以在网上找到,首先是Cordell&Clayton,Genetic Association Studies)。

主轴的构建遵循经典的PCA方法,该方法应用于观察到的基因型(AA,AB,BB;在所有情况下,B为次要等位基因)的比例矩阵(个体为SNP);可以应用额外的归一化来解决人口漂移。所有这些都假定次要等位基因的频率(取值{0,1,2})可以视为数字,也就是说,我们在加性模型(也称为等位基因剂量)下或任何有意义的等效模型下工作。由于连续的正交PC将考虑最大方差,因此这提供了一种方法来突出显示次要等位基因频率水平不同的个体组。用于此目的的软件称为Eigenstrat。也可以在egscore()从功能GenABEL ř包(也参见GenABEL.org)。值得注意的是,提出了其他方法来检测人口子结构,特别是基于模型的聚类重建(请参阅最后的参考资料)。通过浏览Hapmap项目以及Bioconductor项目中的可用教程,可以找到更多信息。(在Google上搜索Vince J Carey或David Clayton的漂亮教程)。

±6在前20个主轴中的至少一个上 SD的;从某种意义上讲,这相当于“增白”了样品。请注意,对基因型距离的任何此类度量(在使用“多维缩放”代替PCA时也是如此)将允许发现亲戚或兄弟姐妹。该砰砰软件提供更多的方法,请参阅节人口分层在线帮助。

考虑到本征分析可以揭示个体水平上的某些结构,因此在尝试解释给定表型(或可能根据二元标准定义的任何分布,例如疾病或病例控制)的解释变异时,我们可以使用此信息情况)。具体来说,我们可以使用PC来调整我们的分析(即个体的因子评分),如Price等人的“ 主成分分析校正了全基因组关联研究中的分层 ”所示。(Nature Genetics 2006,38(8))和后来的工作(在欧洲内部的Genes镜像地理学中有一张很好的图片显示了欧洲遗传变异的轴心; Nature 2008; 图1A复制如下)。还要注意,另一种解决方案是进行分层分析(通过在GLM中包括种族),例如,在snpMatrix软件包中可以很容易地获得这种分析

欧洲的基因镜像地理

参考文献

  1. Daniel Falush,Matthew Stephens和Jonathan K Pritchard(2003)。利用多基因座基因型数据推断种群结构:连锁基因座和相关等位基因频率遗传学,164(4):1567-1587。
  2. 德文林和罗德(1999)。关联研究的基因组控制生物识别,55(4):997-1004。
  3. JK Pritchard,M Stephens和P Donnelly(2000)。利用多基因座基因型数据推断种群结构遗传学,155(2):945–959。
  4. 郑刚,鲍里斯·弗雷德林,李兆海和约瑟夫·加斯维斯(2005)。各种遗传模型下关联研究的基因组控制生物测定学,61(1):186–92。
  5. Chao Tian,Peter K.Gregersen和Michael F.Seldin1(2008)。祖先的会计:人口子结构和全基因组关联研究人类分子遗传学,17(R2):R143-R150。
  6. 凯宇 全基因组关联研究中的人口子结构和控制选择
  7. Alkes L.Price,Noah A.Zaitlen,David Reich和Nick Patterson(2010)。全基因组关联研究中人群分层的新方法,《自然评论遗传学》
  8. 朝田等。(2009)。欧洲人口遗传子结构:区分欧洲不同种族的祖先信息标记的进一步定义,分子医学,15(11-12):371–383。

非常感谢你。然后自然会有更多问题出现:1)如果我忽略PCA并仅按GENDER / RACE / AGE对我的GWAS样本进行分层而忽略PCA会发生什么。它如何反映我的关联分析及其结果?2)如果我实际上想使用PCA,那么我至少要进行基因分型才能获得真实的PCA多少个SNPS?200够了吗?它们是否必须均匀分散在所有染色体上?3)PCA中使用了哪些SNP?这是预定义的集还是任何集?
suprvisr 2011年

@suprvisr我可以在那里回答或更新我的回答,但我认为最好提出一个新问题(围绕“用PCA进行调整与分层调整的利弊”之类的观点)并链接到该问题,以便人们可以清楚地进行必要的连接。
chl

@AndyFrost建议以下内容可能具有引用的图形:goo.gl/jNXx0x,您可能引用的图片可能位于goo.gl/TcK3g8中
gung-恢复莫妮卡

@chl您能否解释一下这是什么意思:“在这种情况下,通常要做的是以迭代方式应用PCA,并在至少前20位本金中的至少一个上删除分数低于±6±6 SD的个人轴”。我在这里寻找我的帖子的答案:biostars.org/p/180336
MAPK
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.