为DNA测序确定负二项分布


16

负二项式分布已成为生物信息学中计数数据(特别是来自给定实验的基因组给定区域内预期的测序读数预期数量)的流行模型。解释各不相同:

  • 一些人将其解释为类似于Poisson分布的工作原理,但具有附加参数,可以为真实分布建模提供更多自由,方差不一定等于均值
  • 一些人将其解释为泊松分布的加权混合(在泊松参数上具有伽玛混合分布)

有没有办法将这些原理与负二项式分布的传统定义相吻合,即在看到一定数量的失败之前先对伯努利试验的成功次数进行建模?还是我应该将它作为泊松分布与伽玛混合分布的加权混合具有与负二项式相同的概率质量函数的快乐巧合?


2
它也是一种复合泊松分布,您可以在其中对泊松分布的对数随机变量求和。
Douglas Zare 2012年

Answers:


8

恕我直言,我真的认为使用负二项式分布是为了方便。

因此,在RNA Seq中,有一个普遍的假设,即如果您在无数次重复中对同一基因进行了无数次测量,那么真实分布将是对数正态的。然后通过泊松过程(带有计数)对这种分布进行采样,因此每个基因在重复中的真实分布读数将为泊松对数正态分布。

但是在我们使用的软件包(如EdgeR和DESeq)中,此分布建模为负二项分布。这不是因为编写该文档的人不了解Poisson Lognormal分布。

这是因为使用Poisson对数正态分布是一件很糟糕的事情,因为它需要数值积分来进行拟合等。因此,当您实际尝试使用它时,有时性能确实很差。

负二项式分布具有封闭形式,因此更容易使用,并且伽玛分布(基础分布)看起来很像对数正态分布,因为它有时看起来像是正态的,有时带有尾巴。

但是在此示例中(如果您相信假设),它在理论上不可能正确,因为理论上正确的分布是泊松对数正态分布,并且两个分布是彼此合理的近似值,但并不等效。

但是我仍然认为,“不正确的”负二项式分布通常是更好的选择,因为从经验上讲,由于积分执行缓慢且拟合可能不好,特别是对于尾巴较长的分布,它将产生更好的结果。


7

我浏览了一些网页,找不到解释,但是我想出了一个整数值。假设我们有两个放射源,分别以αβ的速率分别产生α和β粒子。rαβ

个beta粒子之前的alpha粒子数量分布是什么?r

  1. 将alpha粒子视为成功,将beta粒子视为失败。当检测到粒子时,它是alpha粒子的概率为。因此,这是负二项分布NBrααα+βNB(r,αα+β)

  2. 考虑时间所述的ř个β粒子。这遵循伽马分布Γ r 1 / β 如果以t r = λ / α为条件,则时间t r之前的alpha粒子数遵循泊松分布Pois λ 因此,第r个beta粒子之前的alpha粒子数量分布是Gamma混合泊松分布。trrΓ(r,1/β).tr=λ/αtrPois(λ).r

这就解释了为什么这些分布相等。


2

我只能提供直觉,但是伽马分布本身描述(连续)等待时间(发生罕见事件需要多长时间)。因此,离散泊松分布的伽马分布混合会导致离散等待时间(直到N个故障的试验)的事实似乎并不令人惊讶。我希望有人有一个更正式的答案。

编辑:我总是证明负二项分布。用于测序的方法如下:实际的测序步骤仅是从大型分子库(泊松)中读取读数。但是,该文库是通过PCR从原始样品中制备的。这意味着原始分子呈指数扩增。伽马分布描述了k个独立的指数分布随机变量的总和,即在相同数量的PCR循环中扩增k个样本分子后,文库中有多少个分子。

因此,负二项式模型是PCR,然后是测序。


这是有道理的,但是在测量基因组中的测序读取数的上下文中,是否存在对负二项式分布中的等待期代表什么的直观解释?在这种情况下,没有等待时间-他只是在测量测序读数。
RobertF 2012年

看到我的编辑。我看不出如何根据等待时间来考虑排序设置。伽马泊松混合物更易于解释。但最终它们是同一回事。
Felix Schlesinger 2012年

2
好的-那么也许真正的问题是,在伯努利试验中对k个成功+ r个失败进行建模时,遵循伽马·泊松混合模型的巧合是什么?负的二项式建模k成功+ r失败可以被认为是过度分散的Poisson dbn,这是由于成功和失败试验的许多可能排列导致准确地观察到k和r观察到的失败,可以描述为单独的dbns?
RobertF 2012年

2

考虑到这一点,我将尝试给出一个简单的机械解释。

μpμ1个-ppñμ1个-ppp

μ1个-ppp1个-p=μσ2=μ1个-p-1个 -文库制备片段失败的速率增加了观察到的覆盖范围的差异。

尽管以上内容只是对测序过程的一种人为描述,并且可以为PCR步骤等生成合适的生成模型,但我认为它可以为过度分散参数的产生提供一些见识。 1个-p-1个直接来自负二项式分布。我确实更喜欢将泊松模型与费率综合起来作为一般的解释。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.