生物学背景
随着时间的流逝,某些植物物种倾向于复制其整个基因组,从而获得每个基因的额外副本。由于这种设置的不稳定性,许多这些基因随后被删除,基因组重新排列并稳定下来,准备再次复制。这些复制事件与物种形成和入侵事件相关,并且理论上说复制可以帮助植物更快地适应其新环境。
羽扇豆属开花植物属入侵安第斯山脉,是有史以来发现的最迅速的物种形成事件之一,而且,与最密切相关的属巴氏杆菌属相比,它的基因组中有更多重复副本。
现在是数学问题:
已经对羽扇豆成员和巴氏杆菌成员的基因组进行了测序,从而提供了每个物种中约25,000个基因的原始数据。通过查询已知功能基因的数据库,我现在对基因可能具有的功能有了“最佳猜测”-例如,Gene1298可能与“果糖代谢,盐胁迫反应,冷胁迫反应”相关。我想知道,巴普蒂西亚和羽扇豆之间是否有重复事件,基因丢失是随机发生的,还是具有特定功能的基因更可能被保留或删除。
我有一个脚本,它将输出如下表所示的表。L *是与功能相关的所有羽扇豆基因的计数。L 1+是与至少存在一个重复副本的功能相关的羽扇豆基因的计数。我可以得到它来产生L 2 +,L 3+等,尽管由于测序过程,L 1+比L 2+更可靠。
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
我想要做的是针对每个基因功能,测试是否有更多或更少的重复基因比纯粹在偶然的情况下会在羽扇豆属和巴蒂皮亚虫中预期的基因重复,以及羽扇豆在观察值与预期值之间的比率是否不同于浸礼堂。
到目前为止我最好的东西
先前有关不同物种的研究已使用富集分析,费舍尔精确检验和FDR校正进行多次采样,对每一行进行了偶然性检验。
对此进行改进将是很好的;我不确定这听起来是最好的方法。
Glen_b建议使用GLM分析数据。我在JMP8中玩过GLM,这很有趣,但是我承认我并没有真正理解它们。
就是说,我现在正尝试使用R。
我用这个做什么?
最初,这应该是我在大学里做的一项短期研究项目的一部分,但现在已经扩展为一个庞大的基因组注释项目。为什么?因为生物信息学很酷。能够接受一连串的A,T,C和G并用其推断有关数百万年前发生的事件的信息真是令人惊讶。
不用说,我不会尝试提出任何由我提供的答案作为我自己的工作。如果我在提交的作品中使用此处建议的方法,我很乐意在论文中包含一个感谢。