计算RNA序列和ChIP芯片数据集之间的基因列表重叠的可能性


13

希望这些论坛上的人可以帮助我解决基因表达研究中的这一基本问题。

我对实验和对照组织进行了深度测序。然后,我获得了超出对照的实验样品中基因的倍数富集值。参考基因组有〜15,000个基因。与对照相比,我感兴趣的样本中的15,000个基因中有3,000个富集到某个临界值以上。

因此:A =总基因种群= 15,000 B = RNA-Seq富集的亚群= 3,000。

在先前的ChIP芯片实验中,我发现了400个被ChIP芯片丰富的基因。在400个ChIP芯片基因中,有3,000个富集RNA-Seq转录本的组中有100个基因。

因此:C =芯片上富含芯片的基因总数= 400。

仅凭偶然机会,我的100个ChIP芯片基因就会被RNA-Seq富集的可能性是多少?换句话说,最谨慎的方法是计算我观察到的B和C(100个基因)之间的重叠是否比仅凭偶然获得的重叠更好?到目前为止,根据我的读物,测试这一点的最佳方法是使用超几何分布。

我使用了一个在线计算器(stattrek.com),使用以下参数设置了超几何分布测试:-流行数量= 15,000-总体成功次数= 3,000-样本数量= 400,-成功数量= 100。对于超几何概率P(x = 100)= 0.00224050636447747我得到以下信息

B和C之间重叠的实际基因数量=100。这是否比偶然碰碰更好?如果任何一个基因被富集的机会是1:5(15,000个中的3,000个),看起来就不是这样。这就是为什么我不知道我上面计算的P(x = 100)是0.0022的原因。这等于偶然发生重叠的机会为0.2%。这不应该更高吗?

如果我从15,000个大列表中抽取了400个随机基因,那么这些基因中的任何80个都将被偶然地丰富(1:5)。实际上重叠的基因数量是100,所以这比偶然的情况好一点。

我还尝试提出一种使用R中的hyper或phyper函数的解决方案(使用我在另一篇文章中看到的):A =基因组中的所有基因(15,000)B =富含RNA-Seq的基因(3,000)C = ChIP芯片富集基因(400)这是R输入/输出(改编自先前的stackexchange帖子):

> totalpop <- 15000    
> sample1 <- 3000    
> sample2 <- 400    
> dhyper(0:2, sample1, totalpop-sample1, sample2)    
[1] 4.431784e-40 4.584209e-38 2.364018e-36    
> phyper(-1:2, sample1, totalpop-sample1, sample2)    
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36    

我不确定如何解释这些数字。我相信2.36e-36是仅靠偶然机会使B和C完全重叠的概率吗?但这是没有意义的,因为这种可能性更接近于1:5。如果我从15,000个基因开始,将会丰富3,000个基因。同样,如果我从400个ChIP芯片基因开始,由于该数据集中有1:5的富集机会,其中80个应该单独在RNA-Seq中富集。

根据超几何分布,针对B和C的重叠部分计算p值的正确方法是什么?

Answers:


15

您对dhyper和的使用很亲近,phyper但我不知道其来源0:2-1:2来源。

您想要的p值是从大小为400的样本中,从具有3000个白球和12000个黑球的骨灰盒中获得100个或更多白球的概率。这是四种计算方法。

sum(dhyper(100:400, 3000, 12000, 400))
1 - sum(dhyper(0:99, 3000, 12000, 400))
phyper(99, 3000, 12000, 400, lower.tail=FALSE)
1-phyper(99, 3000, 12000, 400)

这些给出0.0078。

dhyper(x, m, n, k)给出精确绘制的概率x。在第一行中,我们总结了100 – 400的概率;在第二行中,我们取1减去0 – 99的概率之和。

phyper(x, m, n, k)给出获得x或减少的概率,因此phyper(x, m, n, k)与相同sum(dhyper(0:x, m, n, k))

lower.tail=FALSE有点令人困惑。 phyper(x, m, n, k, lower.tail=FALSE)与相同1-phyper(x, m, n, k),因此的可能性x+1也更大。[我不记得了,所以总是必须仔细检查。]

max(dhyper(0:400, 3000, 12000, 400))

这是这种情况下的超几何分布图。您会看到它以80为中心(400的20%),并且100右尾很远。 在此处输入图片说明


多谢您的协助。我了解您的答案背后的逻辑。但是,我如何向一群生物学家解释说,这比仅由于偶然性而观察到的重叠要大?他们会说我有1:5的重叠机会。我的重叠量是否很大,因为在一个样本量为400个球(总共15,000个球中)中,由于我抽样的人群较小(不是整个15,000个),所以我得到白球的机会实际上低于1:5?这没有任何意义,因为即使400 <15,000,白色与黑色的比例仍为1:5。这有意义吗?
stlandroidfan 2011年

@stlandroidfan-我不明白您发现什么令人困惑。我加了一个数字;这有帮助吗?
卡尔

0

以这种方式看。如果您将其假定为二项式,可能不正确,但应该相当近似。您的sigma ^ 2为.8 * .2 * 400 = 64,则sigma = 8。从80到100,您已经偏离了2.5个标准差。。这非常重要。


感谢您的回答。根据我在文献中看到的,超几何分布倾向于更频繁地用于基因列表重叠。问题是,从具有3000个白球和12000个黑球的中,从大小为400的样本中获得100个或更多白球的概率是多少?我认为我仍然困惑于如何向一群生物学家解释这一点?他们的观察方式是3000:12000,这是白色:黑色的1:5机会。因此,在400个样本中,80应该是白色。那么,获得100或更多的概率怎么比20%(五分之一)低呢?
stlandroidfan 2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.