负二项式(NB)分布是在非负整数上定义的,并且具有概率质量函数
它是有效的发行版吗?它有名字吗?有什么用吗?是化合物还是混合物?是否存在均值和方差(以及PDF中的比例常数)的封闭公式?
(我目前正在研究使用NB混合模型(固定)并通过EM拟合的论文。但是,经过一定规格化后,数据为整数,而不是整数。不过,作者使用标准的NB公式进行计算并获得非常合理的结果,因此一切似乎都很好。我感到非常困惑。请注意,此问题与NB GLM 无关。)
负二项式(NB)分布是在非负整数上定义的,并且具有概率质量函数
它是有效的发行版吗?它有名字吗?有什么用吗?是化合物还是混合物?是否存在均值和方差(以及PDF中的比例常数)的封闭公式?
(我目前正在研究使用NB混合模型(固定)并通过EM拟合的论文。但是,经过一定规格化后,数据为整数,而不是整数。不过,作者使用标准的NB公式进行计算并获得非常合理的结果,因此一切似乎都很好。我感到非常困惑。请注意,此问题与NB GLM 无关。)
Answers:
这是一个有趣的问题。多年来,我的研究小组一直在我们可公开获得的生物信息学软件中使用您引用的发行版。据我所知,发行版没有名称,也没有文献。虽然由Aksakal引用的Chandra等人(2012)的论文密切相关,但他们认为的分布似乎仅限于整数值,并且他们似乎并未给出pdf的明确表达。
为了给您一些背景知识,NB分布在基因组研究中被大量使用,以对源自RNA-seq和相关技术的基因表达数据进行建模。计数数据随从可映射到每个基因的生物样品中提取的DNA或RNA序列读数的数目而增加。通常,每个生物样品中有数千万条读数,它们被映射到约25,000个基因。或者,可能会有DNA样本,从该样本中将读段映射到基因组窗口。我们和其他人已经普及了一种方法,其中将NB glms拟合到每个基因的序列读取,并使用经验贝叶斯方法来调节基因散度估计量(散度)。基因组文献中成千上万的期刊文章都引用了这种方法,因此您可以了解使用了多少方法。
我的小组维护edgeR R软件软件包。几年前,我们使用NB pmf的连续版本对整个程序包进行了修订,以使其能够处理分数计数。我们仅将NB pmf中的所有二项式系数转换为伽马函数的比率,并将其用作(混合)连续pdf。这样做的动机是,由于(1)读数到转录组或基因组的模棱两可的映射和/或(2)计数的标准化以校正技术效果,因此序列读数的计数有时可能是零散的。因此,有时计数是预期计数或估计计数,而不是观察到的计数。当然,读取计数可以正概率准确地为零。我们的方法确保了我们软件的推论结果在计数中是连续的,当估计计数恰好是整数时,它与离散的NB结果完全匹配。
据我所知,pdf中没有归一化常数的封闭形式,也没有均值或方差的封闭形式。当人们认为积分 (Fransen-Robinson常数)没有封闭形式时, 很显然连续数的积分不可能存在NB pdf之一。但是在我看来,NB的传统均值和方差公式应继续是连续NB的良好近似。此外,归一化常数应随参数缓慢变化,因此在最大似然计算中的影响可忽略不计。
可以通过数值积分来确认这些假设。NB分布在生物信息学中以Poisson分布的伽马混合形式出现(请参阅下面的Wikipedia负二项式文章或McCarthy等)。只需通过用pdf 对于,其中是归一化常数,以确保密度积分为1。例如,假设。对于非负整数,泊松分布的pmf等于上述pdf,并且
在我们的edgeR程序包中,我们不需要对质量为零的事实进行任何调整,因为我们始终使用条件对数似然或对数似然差,并且所有delta函数都从计算中被抵消。这是具有混合概率分布的glms的典型BTW。或者,我们可以认为分布的质量为零,但支撑的起始位置为-1/2,而不是零。无论哪种理论观点,在实践中都会得出相同的计算结果。
尽管我们积极使用连续的NB分布,但是我们尚未明确发布任何内容。下面引用的文章解释了基因组数据的NB方法,但没有明确讨论连续NB分布。
总而言之,对于您正在研究的文章从NB pdf的连续版本中获得合理的结果,我并不感到惊讶,因为这也是我们的经验。关键要求是我们应该正确地对均值和方差建模,并且只要数据(无论是否为整数)表现出与NB分布相同的二次均方差关系,就可以了。
参考文献
Robinson,M.和Smyth,GK(2008)。负二项式色散的小样本估计,应用于SAGE数据。生物统计学9,321-332。
医学博士鲁宾逊和GK史密斯(2007)。评估标记丰度差异的适度统计测试。生物信息学23,2881-2887。
McCarthy,DJ,Chen,Y,Smyth,GK(2012)。关于生物学变异的多因素RNA-Seq实验差异表达分析。核酸研究40,4288-4297。
Chen Y,Lun,ATL和Smyth,GK(2014)。使用edgeR进行复杂RNA-seq实验的差异表达分析。在:《下一代序列数据的统计分析》中,Somnath Datta和Daniel S Nettleton(编),纽约斯普林格,第51--74页。预印本
ATL伦(Lun),陈Chen(Y)和史密斯(Smyth),GK(2016)。这很不合理:使用edgeR中的拟似然方法进行RNA-seq实验差异表达分析的方法。分子生物学方法1418,391-416。预印本
Chen Y,Lun ATL和Smyth,GK(2016)。从读取到基因再到途径:使用Rsubread和edgeR拟似然途径进行RNA-Seq实验的差异表达分析。F1000研究5,1438。
看这篇文章:钱德拉(Chandra),尼迈·库马尔(Nimai Kumar)和狄利普·罗伊(Dilip Roy)。负二项式分布的连续版本。统计72,没有。1(2012):81。
在本文中将其定义为生存函数,这是一种自然方法,因为在可靠性分析中引入了负二项式: