通过基因重复水平进行富集分析


11

生物学背景

随着时间的流逝,某些植物物种倾向于复制其整个基因组,从而获得每个基因的额外副本。由于这种设置的不稳定性,许多这些基因随后被删除,基因组重新排列并稳定下来,准备再次复制。这些复制事件与物种形成和入侵事件相关,并且理论上说复制可以帮助植物更快地适应其新环境。

羽扇豆属开花植物属入侵安第斯山脉,是有史以来发现的最迅速的物种形成事件之一,而且,与最密切相关的属巴氏杆菌属相比,它的基因组中有更多重复副本。

现在是数学问题:

已经对羽扇豆成员和巴氏杆菌成员的基因组进行了测序,从而提供了每个物种中约25,000个基因的原始数据。通过查询已知功能基因的数据库,我现在对基因可能具有的功能有了“最佳猜测”-例如,Gene1298可能与“果糖代谢,盐胁迫反应,冷胁迫反应”相关。我想知道,巴普蒂西亚和羽扇豆之间是否有重复事件,基因丢失是随机发生的,还是具有特定功能的基因更可能被保留或删除。

我有一个脚本,它将输出如下表所示的表。L *是与功能相关的所有羽扇豆基因的计数。L 1+是与至少存在一个重复副本的功能相关的羽扇豆基因的计数。我可以得到它来产生L 2 +,L 3+等,尽管由于测序过程,L 1+比L 2+更可靠。

Function            | L *  | L 1+ | B *  | B 1+ |
fructose metabolism | 1000 | 994  | 1290 | 876  |
salt stress         | 56   | 45   | 90   | 54   |
etc.

我想要做的是针对每个基因功能,测试是否有更多或更少的重复基因比纯粹在偶然的情况下会在羽扇豆属和巴蒂皮亚虫中预期的基因重复,以及羽扇豆在观察值与预期值之间的比率是否不同于浸礼堂。

到目前为止我最好的东西

先前有关不同物种的研究已使用富集分析,费舍尔精确检验和FDR校正进行多次采样,对每一行进行了偶然性检验。

对此进行改进将是很好的;我不确定这听起来是最好的方法。

Glen_b建议使用GLM分析数据。我在JMP8中玩过GLM,这很有趣,但是我承认我并没有真正理解它们。

就是说,我现在正尝试使用R。

我用这个做什么?

最初,这应该是我在大学里做的一项短期研究项目的一部分,但现在已经扩展为一个庞大的基因组注释项目。为什么?因为生物信息学很酷。能够接受一连串的A,T,C和G并用其推断有关数百万年前发生的事件的信息真是令人惊讶。

不用说,我不会尝试提出任何由我提供的答案作为我自己的工作。如果我在提交的作品中使用此处建议的方法,我很乐意在论文中包含一个感谢。


1
请注意我在先前对其他问题的回答中提到的问题 -有关仅在存在其他重要变量的情况下仅针对一个变量进行测试(我指出了辛普森悖论上的Wikipedia文章)-Fisher的精确测试无法解决这一问题。
Glen_b-恢复莫妮卡

生物信息学酷!欢迎光临本站!
凯尔。

我会很快回来,并给出更多详细的答案,但是R中要查看的适当功能将是loglin,loglm(在MASS软件包中,R附带但默认未安装)和glm本身。这些模型的理解,将有很多相似的理解多元回归和方差分析-与例外的分布是不正常的,和日志-的均值是什么车型是线性英寸
Glen_b -Reinstate莫妮卡

Answers:


1

尽管我同意费舍尔的测试(或类似方法)可能是这里最自然的方法,但如何做到这一点:

  1. 对于每个独特的基因,您需要确定L和B中重复次数的差异
  2. 通过这种差异对基因进行排序。现在,显示物种之间最大差异的基因将在您的列表顶部。
  3. 将基因集富集测试应用于基因的有序列表。例如,您可以使用tmod包中的经过修改的Fisher方法,为此您必须定义基因集(这应该非常简单)。请注意,费舍尔的方法与费舍尔的测试无关。

修改后的Fisher检验(在此情况下首先描述为作者的作者称为CERNO )采用任何有序的基因列表作为输入,只要您可以将它们分组在一些有用的类别中即可。

这种方法的优势在于,除了p值外,您还可以轻松计算出富集的效应大小并可视化(例如,作为有序基因列表上的ROC曲线)。这为您提供了一个更好的主意,即您观察到的东西对您学习的生物学有多重要。


0

正如您所说,您要问两个不同的问题。

问题1“对于给定的基因功能,比率L * / L1 +是否不同于B * / B1 +”

如您先前发现的那样,最好使用Fisher的精确测试来回答这一问题,该测试使用了整个行中的数据。

问题2“比率是:一个基因有一个拷贝的基因/一个基因有一个以上拷贝的基因,基因功能之间是否不同?”

我认为这也可以用Fisher的精确测试来最好地回答。您将测试基因功能1的L * / L1 +与基因功能2的L * / L1 +的比率。然后测试基因功能1与基因功能3的比率,依此类推。

这些问题集都无法确定它们的维护/删除速度是否比纯属偶然的要快,仅取决于它们是否以彼此不同的速率被删除/维护。要知道它们是否被删除/保持的速率不同于偶然发生的速率,您需要知道许多受偶然影响的DNA区域的单拷贝/多拷贝的比率。如果可以找到这样的区域,您将得到一个“功能组”,其中功能为“无”。然后,您可以按照我在问题2中描述的相同方法,将其与其他基因功能组进行比较。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.