负二项分布的连续推广


24

负二项式(NB)分布是在非负整数上定义的,并且具有概率质量函数

f(k;r,p)=(k+r1k)pk(1p)r.
是否有意义考虑对非负实数的连续分布由相同的公式定义(替换ķñ0通过X[R0)?可以将二项式系数重写为(k + 1)\ cdot \ ldots \ cdot(k + r-1)的乘积,该乘积ķ+1个ķ+[R-1个对于任何实数k都是定义明确的ķ。因此,我们将得到一个PDF
FX;[Rp一世=1个[R-1个X+一世pX1个-p[R
更一般而言,我们可以用Gamma函数替换二项式系数,从而允许r的非整数值[R
FX;[RpΓX+[RΓX+1个Γ[RpX1个-p[R

它是有效的发行版吗?它有名字吗?有什么用吗?是化合物还是混合物?是否存在均值和方差(以及PDF中的比例常数)的封闭公式?

(我目前正在研究使用NB混合模型(固定[R=2)并通过EM拟合的论文。但是,经过一定规格化后,数据为整数,而不是整数。不过,作者使用标准的NB公式进行计算并获得非常合理的结果,因此一切似乎都很好。我感到非常困惑。请注意,此问题与NB GLM 无关。)


1
那不是比例参数为-\ log p的Gamma的混合-日志p吗?如果展开多项式Π一世=1个[R-1个X+一世您将得到一世=2[R一种一世X一世-1个,然后乘以pX经验值{X日志p},其中一种一世是多项式中X一世-1个的系数,当然日志p<0,因此看起来它将转换为a Gamma分布(即混合物)的加权平均值。
jbowman

... 实际上应该是i=1
jbowman

2
由于1个-p[R仅取决于参数,因此它是一个可以按比例吸收的常数。此外,X+[R-1个X=ΓX+[R/Γ[RΓX+1个也具有恒定的1个/Γ[R该罐被忽略。为\ rho =-\ log(p)\ ge 0p ^ k = e ^ {-k \ rho},您正在询问与f(x; r,\ rho)= \ frac {\ Gamma成正比的密度(x + r)} {\ Gamma(x + 1)} \,e ^ {-\ rho x}。这将\ rho标识为比例因子,将r标识为形状参数。对于积分r,显然是伽马分布的混合。但是,将r限制为整数是没有意义的。pķ=Ë-ķρρ=-日志p0
FX;[Rρ=ΓX+[RΓX+1个Ë-ρX
ρr rr
ub

1
@whuber对。我实际上使用的是在正值上连续且点质量为零的分布。我相信这是正确的方法。但有人建议我使用NB的连续归纳法,该方法在零处具有非零的可能性,因此似乎可以处理精确的零。因此,我的问题。
变形虫说莫妮卡(Monica)

2
我认为该建议可能有些混乱:它似乎将概率(点质量或NB分布为零的概率)与概率密度(的值)混合在一起将是)。非零密度不允许您处理精确的零,因为它仍然预测出现任何可能性为零!0f(0,θ)0
ub

Answers:


21

这是一个有趣的问题。多年来,我的研究小组一直在我们可公开获得的生物信息学软件中使用您引用的发行版。据我所知,发行版没有名称,也没有文献。虽然由Aksakal引用的Chandra等人(2012)的论文密切相关,但他们认为的分布似乎仅限于整数值,并且他们似乎并未给出pdf的明确表达。r

为了给您一些背景知识,NB分布在基因组研究中被大量使用,以对源自RNA-seq和相关技术的基因表达数据进行建模。计数数据随从可映射到每个基因的生物样品中提取的DNA或RNA序列读数的数目而增加。通常,每个生物样品中有数千万条读数,它们被映射到约25,000个基因。或者,可能会有DNA样本,从该样本中将读段映射到基因组窗口。我们和其他人已经普及了一种方法,其中将NB glms拟合到每个基因的序列读取,并使用经验贝叶斯方法来调节基因散度估计量(散度ϕ=1/r)。基因组文献中成千上万的期刊文章都引用了这种方法,因此您可以了解使用了多少方法。

我的小组维护edgeR R软件软件包。几年前,我们使用NB pmf的连续版本对整个程序包进行了修订,以使其能够处理分数计数。我们仅将NB pmf中的所有二项式系数转换为伽马函数的比率,并将其用作(混合)连续pdf。这样做的动机是,由于(1)读数到转录组或基因组的模棱两可的映射和/或(2)计数的标准化以校正技术效果,因此序列读数的计数有时可能是零散的。因此,有时计数是预期计数或估计计数,而不是观察到的计数。当然,读取计数可以正概率准确地为零。我们的方法确保了我们软件的推论结果在计数中是连续的,当估计计数恰好是整数时,它与离散的NB结果完全匹配。

据我所知,pdf中没有归一化常数的封闭形式,也没有均值或方差的封闭形式。当人们认为积分 (Fransen-Robinson常数)没有封闭形式时, 很显然连续数的积分不可能存在NB pdf之一。但是在我看来,NB的传统均值和方差公式应继续是连续NB的良好近似。此外,归一化常数应随参数缓慢变化,因此在最大似然计算中的影响可忽略不计。

01Γ(x)dz

可以通过数值积分来确认这些假设。NB分布在生物信息学中以Poisson分布的伽马混合形式出现(请参阅下面的Wikipedia负二项式文章或McCarthy等)。只需通过用pdf 对于,其中是归一化常数,以确保密度积分为1。例如,假设。对于非负整数,泊松分布的pmf等于上述pdf,并且

f(x;λ)=a(λ)eλλxΓ(x+1)
x0a(λ)λ=10λ=10,泊松均值和方差等于10。数值积分表明和连续分布的均值和方差等于10到大约4个有效数字。因此,归一化常数实际上为1,并且均值和方差与离散Poisson分布几乎完全相同。如果我们添加一个连续校正,从到而不是从0 积分,则近似值会得到更大的改善。使用连续校正,一切都正确(归一化常数为1,矩与离散泊松相符)为大约6图。a(10)=1/0.9998751/2

在我们的edgeR程序包中,我们不需要对质量为零的事实进行任何调整,因为我们始终使用条件对数似然或对数似然差,并且所有delta函数都从计算中被抵消。这是具有混合概率分布的glms的典型BTW。或者,我们可以认为分布的质量为零,但支撑的起始位置为-1/2,而不是零。无论哪种理论观点,在实践中都会得出相同的计算结果。

尽管我们积极使用连续的NB分布,但是我们尚未明确发布任何内容。下面引用的文章解释了基因组数据的NB方法,但没有明确讨论连续NB分布。

总而言之,对于您正在研究的文章从NB pdf的连续版本中获得合理的结果,我并不感到惊讶,因为这也是我们的经验。关键要求是我们应该正确地对均值和方差建模,并且只要数据(无论是否为整数)表现出与NB分布相同的二次均方差关系,就可以了。

参考文献

Robinson,M.和Smyth,GK(2008)。负二项式色散的小样本估计,应用于SAGE数据。生物统计学9,321-332。

医学博士鲁宾逊和GK史密斯(2007)。评估标记丰度差异的适度统计测试。生物信息学23,2881-2887。

McCarthy,DJ,Chen,Y,Smyth,GK(2012)。关于生物学变异的多因素RNA-Seq实验差异表达分析。核酸研究40,4288-4297。

Chen Y,Lun,ATL和Smyth,GK(2014)。使用edgeR进行复杂RNA-seq实验的差异表达分析。在:《下一代序列数据的统计分析》中,Somnath Datta和Daniel S Nettleton(编),纽约斯普林格,第51--74页。预印本

ATL伦(Lun),陈Chen(Y)和史密斯(Smyth),GK(2016)。这很不合理:使用edgeR中的拟似然方法进行RNA-seq实验差异表达分析的方法。分子生物学方法1418,391-416。预印本

Chen Y,Lun ATL和Smyth,GK(2016)。从读取到基因再到途径:使用Rsubread和edgeR拟似然途径进行RNA-Seq实验的差异表达分析。F1000研究5,1438。


@Gordon,这非常有帮助。非常感谢您抽出宝贵的时间来编写它。我也正在处理RNA-seq数据,因此从这个角度来看,答案特别有价值(我现在在问题中添加了[bioinformatics]标签)。您的工作是关于差异表达,而我目前的工作是关于聚类(我正在阅读的论文是Harris等人关于CA1 interneurons; biorxiv的文章)。无论如何,让我问您几个小问题/澄清。[续]
变形虫说莫妮卡(Monica)恢复职权是

(1)您说连续NB是连续泊松的伽马混合物。您能否在它上面进行一点扩展,或者更明确地显示它?我认为这将对一般观众有用。与此相关的是,在我的问题下的评论中,两个人写道,连续NB应该是比例参数为的Gamma的混合,但仅限于整数。两种观点都是正确的吗?(2)您说过零函数对GLM并不重要。同时,有大量关于零膨胀分布的GLM的文献。如何配合在一起?log(p)r
变形虫说莫妮卡(

(3)在实际工作中,您是使用ML估算包括在内的所有参数,还是预先将固定为某个特定值(也许所有基因共享相同的值?),然后使其保持不变?我想这应该容易得多。(例如,NB本身是指数色散族,但仅具有固定的。)rrr
变形虫表示莫妮卡(Reonica)Monica

1
@amoeba感谢您的biorxiv参考。(1)NB是由Poissons的混合物衍生而来的,这是众所周知的,在我们的论文中,例如McCarthy等。连续NB的推导仅用连续Poisson代替Poisson即可。我应该将此添加到答案中吗?会很长。我看不出连续的NB如何可以有效地表示为伽马的混合物。(2)不,零通胀是另一种不同的并发症。我们在工作中避免了这种复杂性。
Gordon Smyth

1
@amoeba(3)我们估计所有参数。估计基因散度以实现错误率控制是至关重要的,并且必须格外小心,因为样本量通常很小并且数据量很大。我们使用了一个复杂的程序,该程序涉及每个基因内的调整后的分布似然性(认为REML),以及基因之间的加权似然经验贝叶斯程序。然后用固定的分散体通过ML拟合一般的NB glms。最后,使用准似然F检验对系数进行检验。
Gordon Smyth

19

看这篇文章:钱德拉(Chandra),尼迈·库马尔(Nimai Kumar)和狄利普·罗伊(Dilip Roy)。负二项式分布的连续版本。统计72,没有。1(2012):81

在本文中将其定义为生存函数,这是一种自然方法,因为在可靠性分析中引入了负二项式:

小号[RX={qX对于 [R=1个ķ=0[R-1个X+ķ-1个ķpķqX对于 [R=23
其中和。q=Ë-λλ0p+q=1个[Rñ[R>0

谢谢!我将看一下这篇论文。(不是我拒绝了。)
变形虫说恢复莫妮卡的时间

@amoeba,我不用担心投票不足,这是互联网:)
Aksakal

3
(奇怪的是,这个答复被
否决了

有这个参考文献很好,但是理想情况下,我希望在这里看到更详细的讨论。这个生存函数在我的问题中定义的分布与PDF相同吗?(顺便说一句,我发现作者对非整数值使用二项式系数有点奇怪。)上面的几条评论指出这是伽马分布的混合体(我看不到在纸); 这些伽玛的参数是什么,混合物的重量是多少?均值和方差的NB公式是否适用于连续版本?X
变形虫说莫妮卡(Monica)恢复职权

@amoeba,本文有一些要点,很遗憾,它们与NB中的要点不同
Aksakal
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.