存储一个人类基因组需要多少存储空间?


83

我正在寻找存储单个人类基因组所需的字节(MB,GB,TB等)存储量。我在Wikipedia上阅读了几篇有关DNA,染色体,碱基对,基因的文章,并有一些粗略的猜测,但是在公开任何内容之前,我想先看看其他人如何解决这个问题。

另一个问题是人类DNA中有多少个原子,但这对于这个位点来说是不可能的。

我知道这只是一个近似值,因此我正在寻找能够存储任何人类DNA的最小值。


至于原子数,这取决于组成。A和T的分子比G和C的小。尽管分子的结构是牛肉,但不是其原子组成,所以这并不是一个非常有用的计算。(对于它的价值,例如,A分子又称脱氧腺苷是C10H13N5O3,所以有31个原子。)
2015年


除了用户slayton之外,Paul Amstrong和rauchen给出的所有其他答案在本质上都是完全错误的或远远不够完整的。在答案中,用户(未能)提到了压缩方法或解释不充分。请参阅我的答案,以阐明许多答案中所见的4倍的基因组缩减。
ZF007'3

我投票结束这个问题是因为题外,因为这是题外,应该在bioinformatics.stackexchange.com上
Chris_Rands

Answers:


67

如果您相信这样的话,这就是Wikipedia声称的内容(来自 http://en.wikipedia.org/wiki/Human_genome#Information_content):

单倍体人类基因组的29亿个碱基对对应于最大约725兆字节的数据,因为每个碱基对都可以用2位编码。由于各个基因组之间的差异小于1%,因此可以无损地压缩到大约4兆字节。


7
仅添加一些生物学注释,“单倍体”在这里表示每个染色体只有一个副本。人参装配体是单倍体(以及多个人的镶嵌体)。实际的单个基因组将是二倍体的(每个染色体2个副本,X和Y除外),但在两个副本之间只是一小部分位点的变异。
亚历克斯·斯托达德

9
考虑了一天,并意识到了这一点:如果您存储了一些基本案例的人类DNA,那么任何后续人类的DNA都只需要存储为它与基本案例之间的差异即可。对于相同性别的例子,DNA的99.9%相同。男女比例为98.5%。
哥斯达黎加

3
还值得记住的是,并非DNA碱基对内编码的所有信息也都有表观遗传信息。
Annarfych

这是有道理的。碱基对基本上是4元。4进制数是2位,所以大小加倍。因此为5.8 GB或5.8 / 8 GB,即0.725 GB或725 MB。“压缩”是唯一可能的,因为您可以对映射的基因组存储差异,而不是存储整个基因组。
Dave Cousineau

@Annarfych,这是极具误导性的,因为根据定义,表观遗传信息是不可继承的(尽管在大众媒体中误导了相反的说法)。可遗传信息仅存储在DNA中。
康拉德·鲁道夫

25

您不必将所有的DNA都存储在一个流中,而是大部分时间是通过染色体存储的。

一条大染色体大约需要300 MB,而一条小染色体大约需要50 MB。


编辑:

我认为为什么每个基本对不以2位保存它的第一个原因是它将导致处理数据的障碍。大多数人不知道如何转换它。即使提供了转换程序,也不允许/不需要大公司或研究机构中的许多人询问或不知道如何安装程序...

1GB的存储空间不算什么,即使以100 Mbitsps的速度下载3GB的存储也只需4分钟,而且大多数公司的速度都更快。

另一点是,数据并没有您告诉的那么简单。

例如,克雷格·温特(Craig_Venter)发明的测序方法是一个巨大的突破,但缺点是。它无法分离相同碱基对的长链,因此,如果存在8个A或9个A,则并非总是100%清晰。您以后需要照顾的事情...

另一个例子是DNA甲基化,因为您不能以2位表示形式存储此信息。


2
向我+1。但是,我不知道“大”或“小”染色体是什么意思?
米兰Babuškov2012年

1
这些数字与Wikipedia所说的不一致(请参阅en.wikipedia.org/wiki/Human_genome#Information_content中的表);我并不是说您错了,但是您能解释这个差异吗?
奥利弗·查尔斯沃思

看起来他被引述Mbp的(碱基对百万,每个碱基对的是在基因组中的单一位置),而不是MB,其可以假设每个位置的2位编码
亚历斯托达德

基因组的某些DNA甲基化会在生物的整个生命周期内发生变化。包括人类基因组的DNA甲基化数据将更像是特定时刻某个人的详细快照,而不是该个体的一般性描述。虽然,OP没有指定他们想要的。
Cowlinator

12

基本上,每个碱基对占用2位(可以将00、01、10、11用作T,G,C和A)。由于人类基因组中大约有29亿个碱基对,因此(2 * 29亿)位= 691兆字节。

我不是专家,但是,维基百科上的“人类基因组”页面显示以下内容:

原始MB:

  • 男(XY):770MB
  • 女(XX):756MB

我不确定它们的差异来自何处,但我确定您可以弄清楚。


6
实际上,由于序列信息中还存储有其他碱基(N例如,数据不可映射,因此是未知的),因此需要2位以上的位。IUPAC核苷酸代码包含的标准代码不止四个,这会增加存储开销。 ebi.ac.uk/2can/tutorials/aa.html
亚历克斯·雷诺兹

@AlexReynolds断开的链接:/
o0'。

2
@AlexReynolds @ O0' bioinformatics.org/sms2/iupac.html是一个更好的链接,这些IUPAC代码。AIUI,由于不精确,特定的基因组“扫描”需要超过2位,因此R对于A或G,N对于任何碱基,.对于缺口等而言。如果我们能完美地读取基因组,则每碱基只需2位。
skierpage

1
X染色体对女性而言是单一的。雄性的Y色度更高。众所周知,这与X crhom不同。
ZF007'3

它还取决于如何定义兆字节:二进制2 ^ 20或公制10 ^ 6字节。您使用二进制,因此您的数字更低。
il--ya

8

是的,整个人类DNA所需的最小RAM约为770 MB。但是,2位表示是不切实际的。很难搜索或对其进行一些计算。因此,一些数学家设计了一种更有效的方法来存储这些碱基序列,并将其用于搜索和比较算法中,例如GARLI(www.bio.utexas.edu/faculty/antisense/garli/garli.html)。该应用程序现在可以在我的PC上运行,因此我可以对您说...实际上,DNA大约存储在:1 563 MB


4

如果除了用户slayton,rauchen和Paul Amstrong以外的大多数答案都是完全错误的,如果它们是一对一的纯存储而不使用压缩技术。

具有3Gb核苷酸的人类基因组对应于3Gb字节,而不是〜750MB。根据NCBI构建的“单倍体”基因组目前大小为3436687kb或3.436687 Gb。亲自检查这里

单倍体=染色体的单个副本。二倍体=两个版本的单倍体。人类有22条独特的染色体x 2 =44。男性的第23条染色体是X,Y,总共有46条。女性23色 是X,X,因此总数为46。

对于雄性来说,HDD上的数据存储为23 +1条染色体,对于雌性,它为23条染色体,这说明了在答案中不时提及的微小差异。X色度。来自雄性的等于X色度。来自女性。

因此,使用来自fasta文件的构建数据库,通过BLAST将基因组(23 + 1)加载到内存中的过程是部分完成的。无论是压缩版本还是几乎不压缩核苷酸。早在早期,使用的技巧之一就是替换串联重复序列(GACGACGAC,编码较短,例如“ 3GAC”; 9字节至4字节)。原因是节省硬盘空间(具有7.200 rpm和SCSI连接器的500bm-2GB HDDD盘片的面积)。对于序列搜索,也可以通过查询来完成。

如果“编码核苷酸”存储每个字母为2位,则得到一个字节:

A = 00
C = 01
G = 10
T = 11

只有这样,您才能从1,2,3,4,5,6,7和8位获得1字节的编码。例如,组合00.01.10.11(作为byte 00011011)将对应于“ ACTG”(并在文本文件中显示为无法识别的字符)。正如我们在其他答案中所看到的,仅此一项就导致文件大小减少了四倍。因此,将3.4Gb缩减为0.85917175 Gb ...〜860MB,包括随后需要的转换程序(23kb-4mb)。

但是...在生物学中,您希望能够阅读某些内容,因此压缩压缩就足够了。解压缩后,您仍然可以阅读。如果使用了此字节填充,则读取数据将变得更加困难。这就是为什么fasta文件实际上是纯文本文件的原因。


1
您也可以将其存储为Pictire或音频记录,甚至还可以是视频,并且存储起来会很麻烦。但这不是必需的,也是最低要求的。
il--ya

@ il--ya ...我想念您要说的重点...(我想您想在250公里的TDK磁带上移动。重600公斤,倒带三个小时)?
ZF007 '18

1
关键是,用2位信息对4个碱基对中的1个进行了编码。这是编码所需的数据量-您不能减少编码量。但是您可以选择以其他方式对其进行编码:可以使用整个字节,或者绘制占用几kB的图像,或者进行录音。所有这一切仍将允许存储所需的信息,但这不是必需的最少的编码。您任意强加了可读性标准(使用标准文本编辑器),这不是原始问题所要求的。
il--ya

不幸的是,这不是它在生物学中的工作方式。科学家之间的交流方式是口头,纸张或文本文件格式,可以很容易地从屏幕上读取。如果您有一个碱基对,则用零或一填充字节就足够了。但是,有4个碱基(2对)。在一个字节中,您有4个位置用于一个碱基对,并有4个位置指示该碱基对的类型。数据压缩有效,但人类需要可读性。RGB代码中的单个像素(3个值和一个强度值)使用32byte。一个字母只有8位。因此没有必要将其设为蒙娜丽莎,对吧?
ZF007 '18

6
ZF007,您错过了我关于极简主义的观点。问题是:“存储人类DNA需要多少内存?” 更详细地讲:“ ...我正在寻找能够存储任何人的DNA的最小价值。” 您正在尝试回答一个不同的问题,即“以生物学家用来传达基因组数据的可读形式存储人类DNA需要多少内存?” 如果使用良好的压缩算法压缩可读文本数据,则其大小将大大低于每个碱基对2位。
il--ya

3

人类基因组包含29亿个碱基对。因此,如果将每个基本对表示为一个字节,则将花费29亿字节或2.9 GB。您可能会想出一种更有创意的方式来存储碱基对,因为每个碱基对仅需要2位。因此,您可能每个字节存储4个碱基对,从而减少了少于1 GB的总数。


位〜=字节。29亿位约为350 MB
SDGuero

4
@SDGuero,基对是基数4而不是基数2,因此您至少需要2位来表示一个基对。
slayton 2014年

BS上的位lingo ...每个核苷酸碱基为1个字符,因此为1个字节,与使用的字符转换表(AscII,UTF-8等)无关。不包括2字节亚洲编码。
ZF007'3

1
@ zf007碱基对由a,c,g和t的令牌表示。令牌与字符不同。没有理由不能将a编码为00,将c编码为01,将g编码为10,将t编码为11
MatBailie

1
有差异;您宣称需要一个人类可读的文件,该文件不在原始帖子中。
MatBailie

3

有4个核苷酸碱基组成我们的DNA,它们分别是A,C,G,T,因此,DNA中的每个碱基占据2位。有大约29亿个碱基,因此大约700兆字节。奇怪的是,它将填充正常的数据CD!巧合?!?


3

刚刚做到了。原始序列约为700 MB。如果使用固定的存储序列或固定的序列存储算法-且更改为1%的事实,我将用一个染色体序列偏移量-statedelta存储〜120 MB。就是用于存储。


1

所有的答案都遗漏了一个事实,即nuDNA不是定义人类基因组的唯一DNA。mtDNA也是遗传的,它为人类基因组贡献了额外的16,500个碱基对,使其与Wikipedia推测的男性770MB和女性756MB更加一致。

这并不意味着人类基因组可以轻松存储在4GB USB记忆棒上。位本身并不代表信息,它是位代表信息的组合。因此,在nuDNA和mtDNA的情况下,对位进行编码(不要与压缩混淆)以表示蛋白质和酶,而蛋白质和酶本身将需要大量MB的原始数据来表示,尤其是在功能方面。

值得深思的是:人类基因组中80%被称为“非编码” DNA,您是否真的相信只有151至154MB的原始数据可以代表整个人体和大脑?


-3

碱基对只有2种类型,胞嘧啶只能结合鸟嘌呤,腺嘌呤只能结合胸腺嘧啶,因此每个碱基对都可以视为一个位。这意味着,大约30亿个“位”的人类DNA链大约为350兆字节。


2
您有2种类型的对,它们可以在两个方向上-因此,每对都需要两位。这就是为什么以上大多数帖子写〜700MB而不写350MB的原因。
Trondster '17

-3

一个基数-T,C,A,G(在以4为基数的系统中为0、1、2、3)被编码为两位(不是一个),因此一个基对四位编码


2
除非一对基本互补,否则不要添加任何信息。因此,碱基对和碱基对都可以用两位编码。
il--ya

如果您有“ A”,您将如何补充?“ AC”,“ AG”,“ AT”均有效。同样,如果您具有“ T”,那么“ TG”,“ TC”,“ TA”是有效的,那么您该怎么办?
罗杰·约翰逊

1
@RogerJohansson不,DNA中只有“ AT”碱基对有效。同样对于“ TA”,“ CG”和“ GC”。不存在其他碱基对组合。
康拉德·鲁道夫

@KonradRudolph至少有九个嘌呤(en.wikipedia.org/wiki/Purine)。所有这些都可以用来替代A或G。这将使OP的问题的解决方案更加复杂。我同意保持简单,并坚持使用A,G,T和
C。– ZF007

1
@ ZF007它们存在,但在人类基因组中不稳定,因此与基因组存储无关。它们的生物学相关性仅在突变(且仅在瞬时发生)和RNA修饰的情况下才重要。特别是(在此答案的上下文中),基因组数据不存储为“碱基对”,而是存储为单个碱基的序列,并且每个位置都可以编码为两位。这不是理论上的,实际上是这样做的(除了,对于大多数应用程序而言,遗传数据以(压缩)ASCII存储,而不是位压缩)。
康拉德·鲁道夫
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.