我正在寻找存储单个人类基因组所需的字节(MB,GB,TB等)存储量。我在Wikipedia上阅读了几篇有关DNA,染色体,碱基对,基因的文章,并有一些粗略的猜测,但是在公开任何内容之前,我想先看看其他人如何解决这个问题。
另一个问题是人类DNA中有多少个原子,但这对于这个位点来说是不可能的。
我知道这只是一个近似值,因此我正在寻找能够存储任何人类DNA的最小值。
我正在寻找存储单个人类基因组所需的字节(MB,GB,TB等)存储量。我在Wikipedia上阅读了几篇有关DNA,染色体,碱基对,基因的文章,并有一些粗略的猜测,但是在公开任何内容之前,我想先看看其他人如何解决这个问题。
另一个问题是人类DNA中有多少个原子,但这对于这个位点来说是不可能的。
我知道这只是一个近似值,因此我正在寻找能够存储任何人类DNA的最小值。
Answers:
如果您相信这样的话,这就是Wikipedia声称的内容(来自 http://en.wikipedia.org/wiki/Human_genome#Information_content):
单倍体人类基因组的29亿个碱基对对应于最大约725兆字节的数据,因为每个碱基对都可以用2位编码。由于各个基因组之间的差异小于1%,因此可以无损地压缩到大约4兆字节。
您不必将所有的DNA都存储在一个流中,而是大部分时间是通过染色体存储的。
一条大染色体大约需要300 MB,而一条小染色体大约需要50 MB。
编辑:
我认为为什么每个基本对不以2位保存它的第一个原因是它将导致处理数据的障碍。大多数人不知道如何转换它。即使提供了转换程序,也不允许/不需要大公司或研究机构中的许多人询问或不知道如何安装程序...
1GB的存储空间不算什么,即使以100 Mbitsps的速度下载3GB的存储也只需4分钟,而且大多数公司的速度都更快。
另一点是,数据并没有您告诉的那么简单。
例如,克雷格·温特(Craig_Venter)发明的测序方法是一个巨大的突破,但缺点是。它无法分离相同碱基对的长链,因此,如果存在8个A或9个A,则并非总是100%清晰。您以后需要照顾的事情...
另一个例子是DNA甲基化,因为您不能以2位表示形式存储此信息。
基本上,每个碱基对占用2位(可以将00、01、10、11用作T,G,C和A)。由于人类基因组中大约有29亿个碱基对,因此(2 * 29亿)位= 691兆字节。
我不是专家,但是,维基百科上的“人类基因组”页面显示以下内容:
原始MB:
我不确定它们的差异来自何处,但我确定您可以弄清楚。
N
例如,数据不可映射,因此是未知的),因此需要2位以上的位。IUPAC核苷酸代码包含的标准代码不止四个,这会增加存储开销。 ebi.ac.uk/2can/tutorials/aa.html
R
对于A或G,N
对于任何碱基,.
对于缺口等而言。如果我们能完美地读取基因组,则每碱基只需2位。
是的,整个人类DNA所需的最小RAM约为770 MB。但是,2位表示是不切实际的。很难搜索或对其进行一些计算。因此,一些数学家设计了一种更有效的方法来存储这些碱基序列,并将其用于搜索和比较算法中,例如GARLI(www.bio.utexas.edu/faculty/antisense/garli/garli.html)。该应用程序现在可以在我的PC上运行,因此我可以对您说...实际上,DNA大约存储在:1 563 MB。
如果除了用户slayton,rauchen和Paul Amstrong以外的大多数答案都是完全错误的,如果它们是一对一的纯存储而不使用压缩技术。
具有3Gb核苷酸的人类基因组对应于3Gb字节,而不是〜750MB。根据NCBI构建的“单倍体”基因组目前大小为3436687kb或3.436687 Gb。亲自检查这里。
单倍体=染色体的单个副本。二倍体=两个版本的单倍体。人类有22条独特的染色体x 2 =44。男性的第23条染色体是X,Y,总共有46条。女性23色 是X,X,因此总数为46。
对于雄性来说,HDD上的数据存储为23 +1条染色体,对于雌性,它为23条染色体,这说明了在答案中不时提及的微小差异。X色度。来自雄性的等于X色度。来自女性。
因此,使用来自fasta文件的构建数据库,通过BLAST将基因组(23 + 1)加载到内存中的过程是部分完成的。无论是压缩版本还是几乎不压缩核苷酸。早在早期,使用的技巧之一就是替换串联重复序列(GACGACGAC,编码较短,例如“ 3GAC”; 9字节至4字节)。原因是节省硬盘空间(具有7.200 rpm和SCSI连接器的500bm-2GB HDDD盘片的面积)。对于序列搜索,也可以通过查询来完成。
如果“编码核苷酸”存储每个字母为2位,则得到一个字节:
A = 00
C = 01
G = 10
T = 11
只有这样,您才能从1,2,3,4,5,6,7和8位获得1字节的编码。例如,组合00.01.10.11(作为byte 00011011
)将对应于“ ACTG”(并在文本文件中显示为无法识别的字符)。正如我们在其他答案中所看到的,仅此一项就导致文件大小减少了四倍。因此,将3.4Gb缩减为0.85917175 Gb ...〜860MB,包括随后需要的转换程序(23kb-4mb)。
但是...在生物学中,您希望能够阅读某些内容,因此压缩压缩就足够了。解压缩后,您仍然可以阅读。如果使用了此字节填充,则读取数据将变得更加困难。这就是为什么fasta文件实际上是纯文本文件的原因。
人类基因组包含29亿个碱基对。因此,如果将每个基本对表示为一个字节,则将花费29亿字节或2.9 GB。您可能会想出一种更有创意的方式来存储碱基对,因为每个碱基对仅需要2位。因此,您可能每个字节存储4个碱基对,从而减少了少于1 GB的总数。
所有的答案都遗漏了一个事实,即nuDNA不是定义人类基因组的唯一DNA。mtDNA也是遗传的,它为人类基因组贡献了额外的16,500个碱基对,使其与Wikipedia推测的男性770MB和女性756MB更加一致。
这并不意味着人类基因组可以轻松存储在4GB USB记忆棒上。位本身并不代表信息,它是位代表信息的组合。因此,在nuDNA和mtDNA的情况下,对位进行编码(不要与压缩混淆)以表示蛋白质和酶,而蛋白质和酶本身将需要大量MB的原始数据来表示,尤其是在功能方面。
值得深思的是:人类基因组中80%被称为“非编码” DNA,您是否真的相信只有151至154MB的原始数据可以代表整个人体和大脑?
碱基对只有2种类型,胞嘧啶只能结合鸟嘌呤,腺嘌呤只能结合胸腺嘧啶,因此每个碱基对都可以视为一个位。这意味着,大约30亿个“位”的人类DNA链大约为350兆字节。
一个基数-T,C,A,G(在以4为基数的系统中为0、1、2、3)被编码为两位(不是一个),因此一个基对被四位编码。