存储一个人类基因组需要多少存储空间？

83

我正在寻找存储单个人类基因组所需的字节（MB，GB，TB等）存储量。我在Wikipedia上阅读了几篇有关DNA，染色体，碱基对，基因的文章，并有一些粗略的猜测，但是在公开任何内容之前，我想先看看其他人如何解决这个问题。

另一个问题是人类DNA中有多少个原子，但这对于这个位点来说是不可能的。

我知道这只是一个近似值，因此我正在寻找能够存储任何人类DNA的最小值。

— 米兰·巴布斯科夫
source

至于原子数，这取决于组成。A和T的分子比G和C的小。尽管分子的结构是牛肉，但不是其原子组成，所以这并不是一个非常有用的计算。（对于它的价值，例如，A分子又称脱氧腺苷是C10H13N5O3，所以有31个原子。）

— 2015年

又见biostars.org/p/5514

— Ondra参观Žižka

除了用户slayton之外，Paul Amstrong和rauchen给出的所有其他答案在本质上都是完全错误的或远远不够完整的。在答案中，用户（未能）提到了压缩方法或解释不充分。请参阅我的答案，以阐明许多答案中所见的4倍的基因组缩减。

— ZF007'3

我投票结束这个问题是因为题外，因为这是题外，应该在bioinformatics.stackexchange.com上

— Chris_Rands

67

如果您相信这样的话，这就是Wikipedia声称的内容（来自 http://en.wikipedia.org/wiki/Human_genome#Information_content）：

单倍体人类基因组的29亿个碱基对对应于最大约725兆字节的数据，因为每个碱基对都可以用2位编码。由于各个基因组之间的差异小于1％，因此可以无损地压缩到大约4兆字节。

— 奥利弗·查尔斯沃思
source

7

仅添加一些生物学注释，“单倍体”在这里表示每个染色体只有一个副本。人参装配体是单倍体（以及多个人的镶嵌体）。实际的单个基因组将是二倍体的（每个染色体2个副本，X和Y除外），但在两个副本之间只是一小部分位点的变异。

— 亚历克斯·斯托达德

9

考虑了一天，并意识到了这一点：如果您存储了一些基本案例的人类DNA，那么任何后续人类的DNA都只需要存储为它与基本案例之间的差异即可。对于相同性别的例子，DNA的99.9％相同。男女比例为98.5％。

— 哥斯达黎加

3

还值得记住的是，并非DNA碱基对内编码的所有信息也都有表观遗传信息。

— Annarfych

这是有道理的。碱基对基本上是4元。4进制数是2位，所以大小加倍。因此为5.8 GB或5.8 / 8 GB，即0.725 GB或725 MB。“压缩”是唯一可能的，因为您可以对映射的基因组存储差异，而不是存储整个基因组。

— Dave Cousineau

@Annarfych，这是极具误导性的，因为根据定义，表观遗传信息是不可继承的（尽管在大众媒体中误导了相反的说法）。可遗传信息仅存储在DNA中。

— 康拉德·鲁道夫

25

您不必将所有的DNA都存储在一个流中，而是大部分时间是通过染色体存储的。

一条大染色体大约需要300 MB，而一条小染色体大约需要50 MB。

编辑：

我认为为什么每个基本对不以2位保存它的第一个原因是它将导致处理数据的障碍。大多数人不知道如何转换它。即使提供了转换程序，也不允许/不需要大公司或研究机构中的许多人询问或不知道如何安装程序...

1GB的存储空间不算什么，即使以100 Mbitsps的速度下载3GB的存储也只需4分钟，而且大多数公司的速度都更快。

另一点是，数据并没有您告诉的那么简单。

例如，克雷格·温特（Craig_Venter）发明的测序方法是一个巨大的突破，但缺点是。它无法分离相同碱基对的长链，因此，如果存在8个A或9个A，则并非总是100％清晰。您以后需要照顾的事情...

另一个例子是DNA甲基化，因为您不能以2位表示形式存储此信息。

— 劳申
source

2

向我+1。但是，我不知道“大”或“小”染色体是什么意思？

— 米兰Babuškov2012年

1

这些数字与Wikipedia所说的不一致（请参阅en.wikipedia.org/wiki/Human_genome#Information_content中的表）；我并不是说您错了，但是您能解释这个差异吗？

— 奥利弗·查尔斯沃思

看起来他被引述Mbp的（碱基对百万，每个碱基对的是在基因组中的单一位置），而不是MB，其可以假设每个位置的2位编码

— 亚历斯托达德

基因组的某些DNA甲基化会在生物的整个生命周期内发生变化。包括人类基因组的DNA甲基化数据将更像是特定时刻某个人的详细快照，而不是该个体的一般性描述。虽然，OP没有指定他们想要的。

— Cowlinator

12

基本上，每个碱基对占用2位（可以将00、01、10、11用作T，G，C和A）。由于人类基因组中大约有29亿个碱基对，因此（2 * 29亿）位= 691兆字节。

我不是专家，但是，维基百科上的“人类基因组”页面显示以下内容：

原始MB：

男（XY）：770MB
女（XX）：756MB

我不确定它们的差异来自何处，但我确定您可以弄清楚。

— 保罗·阿姆斯特朗
source

6

实际上，由于序列信息中还存储有其他碱基（N例如，数据不可映射，因此是未知的），因此需要2位以上的位。IUPAC核苷酸代码包含的标准代码不止四个，这会增加存储开销。 ebi.ac.uk/2can/tutorials/aa.html

— 亚历克斯·雷诺兹

@AlexReynolds断开的链接：/

— o0'。

2

@AlexReynolds @ O0' bioinformatics.org/sms2/iupac.html是一个更好的链接，这些IUPAC代码。AIUI，由于不精确，特定的基因组“扫描”需要超过2位，因此R对于A或G，N对于任何碱基，.对于缺口等而言。如果我们能完美地读取基因组，则每碱基只需2位。

— skierpage

1

X染色体对女性而言是单一的。雄性的Y色度更高。众所周知，这与X crhom不同。

— ZF007'3

它还取决于如何定义兆字节：二进制2 ^ 20或公制10 ^ 6字节。您使用二进制，因此您的数字更低。

— il--ya

8

是的，整个人类DNA所需的最小RAM约为770 MB。但是，2位表示是不切实际的。很难搜索或对其进行一些计算。因此，一些数学家设计了一种更有效的方法来存储这些碱基序列，并将其用于搜索和比较算法中，例如GARLI（www.bio.utexas.edu/faculty/antisense/garli/garli.html）。该应用程序现在可以在我的PC上运行，因此我可以对您说...实际上，DNA大约存储在：1 563 MB。

— Filip Overtone歌手Rydlo
source

4

如果除了用户slayton，rauchen和Paul Amstrong以外的大多数答案都是完全错误的，如果它们是一对一的纯存储而不使用压缩技术。

具有3Gb核苷酸的人类基因组对应于3Gb字节，而不是〜750MB。根据NCBI构建的“单倍体”基因组目前大小为3436687kb或3.436687 Gb。亲自检查这里。

单倍体=染色体的单个副本。二倍体=两个版本的单倍体。人类有22条独特的染色体x 2 =44。男性的第23条染色体是X，Y，总共有46条。女性23色是X，X，因此总数为46。

对于雄性来说，HDD上的数据存储为23 +1条染色体，对于雌性，它为23条染色体，这说明了在答案中不时提及的微小差异。X色度。来自雄性的等于X色度。来自女性。

因此，使用来自fasta文件的构建数据库，通过BLAST将基因组（23 + 1）加载到内存中的过程是部分完成的。无论是压缩版本还是几乎不压缩核苷酸。早在早期，使用的技巧之一就是替换串联重复序列（GACGACGAC，编码较短，例如“ 3GAC”； 9字节至4字节）。原因是节省硬盘空间（具有7.200 rpm和SCSI连接器的500bm-2GB HDDD盘片的面积）。对于序列搜索，也可以通过查询来完成。

如果“编码核苷酸”存储每个字母为2位，则得到一个字节：

A = 00
C = 01
G = 10
T = 11

只有这样，您才能从1,2,3,4,5,6,7和8位获得1字节的编码。例如，组合00.01.10.11（作为byte 00011011）将对应于“ ACTG”（并在文本文件中显示为无法识别的字符）。正如我们在其他答案中所看到的，仅此一项就导致文件大小减少了四倍。因此，将3.4Gb缩减为0.85917175 Gb ...〜860MB，包括随后需要的转换程序（23kb-4mb）。

但是...在生物学中，您希望能够阅读某些内容，因此压缩压缩就足够了。解压缩后，您仍然可以阅读。如果使用了此字节填充，则读取数据将变得更加困难。这就是为什么fasta文件实际上是纯文本文件的原因。

— ZF007
source

1

您也可以将其存储为Pictire或音频记录，甚至还可以是视频，并且存储起来会很麻烦。但这不是必需的，也是最低要求的。

— il--ya

@ il--ya ...我想念您要说的重点...（我想您想在250公里的TDK磁带上移动。重600公斤，倒带三个小时）？

— ZF007 '18

1

关键是，用2位信息对4个碱基对中的1个进行了编码。这是编码所需的数据量-您不能减少编码量。但是您可以选择以其他方式对其进行编码：可以使用整个字节，或者绘制占用几kB的图像，或者进行录音。所有这一切仍将允许存储所需的信息，但这不是必需的或最少的编码。您任意强加了可读性标准（使用标准文本编辑器），这不是原始问题所要求的。

— il--ya

不幸的是，这不是它在生物学中的工作方式。科学家之间的交流方式是口头，纸张或文本文件格式，可以很容易地从屏幕上读取。如果您有一个碱基对，则用零或一填充字节就足够了。但是，有4个碱基（2对）。在一个字节中，您有4个位置用于一个碱基对，并有4个位置指示该碱基对的类型。数据压缩有效，但人类需要可读性。RGB代码中的单个像素（3个值和一个强度值）使用32byte。一个字母只有8位。因此没有必要将其设为蒙娜丽莎，对吧？

— ZF007 '18

6

ZF007，您错过了我关于极简主义的观点。问题是：“存储人类DNA需要多少内存？” 更详细地讲：“ ...我正在寻找能够存储任何人的DNA的最小价值。” 您正在尝试回答一个不同的问题，即“以生物学家用来传达基因组数据的可读形式存储人类DNA需要多少内存？” 如果使用良好的压缩算法压缩可读文本数据，则其大小将大大低于每个碱基对2位。

— il--ya

3

人类基因组包含29亿个碱基对。因此，如果将每个基本对表示为一个字节，则将花费29亿字节或2.9 GB。您可能会想出一种更有创意的方式来存储碱基对，因为每个碱基对仅需要2位。因此，您可能每个字节存储4个碱基对，从而减少了少于1 GB的总数。

— 莱顿
source

位〜=字节。29亿位约为350 MB

— SDGuero

4

@SDGuero，基对是基数4而不是基数2，因此您至少需要2位来表示一个基对。

— slayton 2014年

BS上的位lingo ...每个核苷酸碱基为1个字符，因此为1个字节，与使用的字符转换表（AscII，UTF-8等）无关。不包括2字节亚洲编码。

— ZF007'3

1

@ zf007碱基对由a，c，g和t的令牌表示。令牌与字符不同。没有理由不能将a编码为00，将c编码为01，将g编码为10，将t编码为11

— MatBailie

1

有差异；您宣称需要一个人类可读的文件，该文件不在原始帖子中。

— MatBailie

3

有4个核苷酸碱基组成我们的DNA，它们分别是A，C，G，T，因此，DNA中的每个碱基占据2位。有大约29亿个碱基，因此大约700兆字节。奇怪的是，它将填充正常的数据CD！巧合？！？

— 马修·麦坚尼斯
source

3

刚刚做到了。原始序列约为700 MB。如果使用固定的存储序列或固定的序列存储算法-且更改为1％的事实，我将用一个染色体序列偏移量-statedelta存储〜120 MB。就是用于存储。

— 宾客
source

1

所有的答案都遗漏了一个事实，即nuDNA不是定义人类基因组的唯一DNA。mtDNA也是遗传的，它为人类基因组贡献了额外的16,500个碱基对，使其与Wikipedia推测的男性770MB和女性756MB更加一致。

这并不意味着人类基因组可以轻松存储在4GB USB记忆棒上。位本身并不代表信息，它是位代表信息的组合。因此，在nuDNA和mtDNA的情况下，对位进行编码（不要与压缩混淆）以表示蛋白质和酶，而蛋白质和酶本身将需要大量MB的原始数据来表示，尤其是在功能方面。

值得深思的是：人类基因组中80％被称为“非编码” DNA，您是否真的相信只有151至154MB的原始数据可以代表整个人体和大脑？

— ar18
source

-3

碱基对只有2种类型，胞嘧啶只能结合鸟嘌呤，腺嘌呤只能结合胸腺嘧啶，因此每个碱基对都可以视为一个位。这意味着，大约30亿个“位”的人类DNA链大约为350兆字节。

— Linux Fanboy
source

2

您有2种类型的对，它们可以在两个方向上-因此，每对都需要两位。这就是为什么以上大多数帖子写〜700MB而不写350MB的原因。

— Trondster '17

-3

一个基数-T，C，A，G（在以4为基数的系统中为0、1、2、3）被编码为两位（不是一个），因此一个基对被四位编码。

— 亨利·柯·诺曼
source

2

除非一对基本互补，否则不要添加任何信息。因此，碱基对和碱基对都可以用两位编码。

— il--ya

如果您有“ A”，您将如何补充？“ AC”，“ AG”，“ AT”均有效。同样，如果您具有“ T”，那么“ TG”，“ TC”，“ TA”是有效的，那么您该怎么办？

— 罗杰·约翰逊

1

@RogerJohansson不，DNA中只有“ AT”碱基对有效。同样对于“ TA”，“ CG”和“ GC”。不存在其他碱基对组合。

— 康拉德·鲁道夫

@KonradRudolph至少有九个嘌呤（en.wikipedia.org/wiki/Purine）。所有这些都可以用来替代A或G。这将使OP的问题的解决方案更加复杂。我同意保持简单，并坚持使用A，G，T和

— C。– ZF007

1

@ ZF007它们存在，但在人类基因组中不稳定，因此与基因组存储无关。它们的生物学相关性仅在突变（且仅在瞬时发生）和RNA修饰的情况下才重要。特别是（在此答案的上下文中），基因组数据不存储为“碱基对”，而是存储为单个碱基的序列，并且每个位置都可以编码为两位。这不是理论上的，实际上是这样做的（除了，对于大多数应用程序而言，遗传数据以（压缩）ASCII存储，而不是位压缩）。

— 康拉德·鲁道夫