简短答案
由于熵(也称为死亡!),无法保证较长的时间。就像宇宙中的任何其他事物一样,数字数据会衰减并消失。但是可以放慢速度。
当前,尚无故障预防和经过科学验证的方法来保证30多年的冷数据归档。一些项目正打算这样做,例如Long Now博物馆的Rosetta Disks项目,尽管它们仍然非常昂贵且数据密度低(约50 MB)。
同时,您可以使用经过科学验证的弹性光学介质(例如Panasonic的Blu-ray Disc HTL型)或诸如Verbatim Gold Archival的档案级DVD + R进行冷藏,并将其放在不透气的密闭盒中(避免高温)和避光。
还要冗余:制作数据的多个副本(至少4个),并计算哈希值以定期检查一切是否正常,并且每隔几年您应该将数据重写到新磁盘上。另外,使用许多错误纠正代码,它们将使您能够修复损坏的数据!
长答案
为什么数据随时间损坏?答案在于一个词:熵。这是宇宙的主要和不可避免的力量之一,它使系统在时间上变得越来越有序。数据损坏就是这样:位顺序混乱。因此,换句话说,宇宙讨厌您的数据。
与熵作斗争就像与死亡作斗争:永远不可能成功。但是,您可以找到减缓死亡的方法,就像减缓熵一样。您还可以通过修复损坏来欺骗熵(换句话说:您无法停止损坏,但是如果事先采取措施,可以在损坏发生后进行修复!)。就像生死攸关的一切一样,没有万能的灵丹妙药,也没有一个解决方案,而最好的解决方案则要求您直接进行数据的数字管理。即使正确执行了所有操作,也不能保证数据安全,您只能最大程度地提高机会。
现在好消息来了:如果您结合了高质量的存储介质和良好的存档/管理策略,现在有相当有效的方式来保存数据:应该为失败而设计。
什么是好的策展策略?让我们直接讲一件事:您将发现的大多数信息都与备份有关,而不是与档案有关。问题在于,大多数人会将他们关于备份策略的知识转移到存档中,因此,现在经常听到很多神话。实际上,将数据存储几年(备份)和将数据存储至少可能跨越几十年的最长时间(存档)是完全不同的目标,因此需要不同的工具和策略。
幸运的是,有很多研究和科学成果,所以我建议参考那些科学论文,而不是论坛或杂志。在这里,我将总结一些读物。
另外,请警惕声明和非独立科学研究,声称此类存储介质是完美的。记住著名的BBC Domesday项目:“数字Domesday书可持续15年而不是1000年”。始终使用真正独立的论文仔细检查研究,如果没有,则始终假定存储介质不适合存档。
让我们澄清一下您在寻找什么(从您的问题中得出):
长期归档:您想保留您的明智,不可复制的“个人”数据的副本。归档从根本上不同于备份,这在这里也作了解释:备份是针对动态技术数据的,这些数据会定期更新,因此需要刷新为备份(即OS,工作文件夹布局等),而归档是静态数据,你可能会写一次,只是读取从时间到时间。存档用于临时数据,通常是个人数据。
冷藏:您想尽可能避免维护存档数据。这是一个BIG约束,因为这意味着介质必须使用能够在很长一段时间内保持稳定的组件和写入方法,而无需您进行任何操作,也不需要连接计算机或电源。
为了简化我们的分析,让我们首先研究冷藏解决方案,然后研究长期归档策略。
冷库
我们在上面定义了一种好的冷存储介质:它应该长时间保留数据而无需任何操作(这就是为什么它被称为“冷”的原因:您可以将其存储在壁橱中,而无需将其插入计算机来维护数据)。
纸张似乎是地球上最有弹性的存储介质,因为我们经常发现很古老的手稿。但是,纸张的主要缺点是:首先,数据密度非常低(即使在很小的字符和计算机工具的情况下,纸张上的存储量也不能超过100 KB),并且随着时间的推移,它的性能会下降,而无法对其进行监控:就像硬盘一样,会遭受无声的损坏。但是,尽管您可以监视数字数据上的无声破坏,但不能在纸上。例如,您不能保证图片只能在十年内保留相同的颜色:这些颜色会退化,并且您无法找到原始颜色。当然可以策展 如果您是图像恢复专家,则可以拍摄图片,但这非常耗时,而对于数字数据,您可以自动执行此策展和恢复过程。
硬盘驱动器(HDD)是已知的,以具有 3至8岁的平均寿命:他们不只是随着时间的推移,他们保证最终死亡(即:无法访问)。以下曲线显示了所有HDD以惊人的速度死亡的趋势:
浴缸曲线显示给定错误类型(也适用于任何工程设备)的HDD故障率的演变:
曲线显示硬盘故障率,所有错误类型已合并:
资料来源:Backblaze
您会发现与故障有关的HDD有3种类型:快死的(例如:制造错误,质量差的HDD,磁头故障等),快死的(例如良好的制造,它们会因各种“正常”的原因,大多数硬盘都是这种情况),最后是寿命比大多数硬盘更长的坚固硬盘,并最终在“正常”硬盘之后死掉(例如:幸运的硬盘,使用率不高,理想的环境条件等。)因此,可以保证您的HDD将会消失。
为什么HDD经常死掉?我的意思是,数据被写在磁盘上,磁场可以持续数十年,然后消失。它们之所以消失,是因为存储介质(磁盘)和读取硬件(电子板+旋转磁头)是耦合的:它们无法分离,您不能只提取磁盘并用另一个磁头读取,因为首先几乎每个硬盘驱动器的电子板(将物理数据转换为数字信号)都不同(即使是相同的品牌和型号,也取决于原始工厂),并且旋转头的内部机制是如此复杂,以至于如今不可能使人类完美地将旋转头放置在磁盘上而不会杀死磁盘。
另外,众所周知,如果不使用HDD (包括SSD),它们会随着时间消磁。因此,您不能仅将数据存储在硬盘上,将其存储在壁橱中并认为它可以保留数据而无需任何电气连接:您需要每年或每两年至少一次将HDD插入电源。因此,硬盘驱动器显然不适合冷藏。
磁带:通常将它们描述为满足备份需求的工具,而从广义上讲,它们是归档的工具。磁带的问题在于,它们非常敏感:阳光,水,空气,划痕,经时间或任何电磁设备消磁的磁氧化物粒子很容易变质,或者随时间流逝或透印。因此,专业人员通常只在数据中心中使用它们。而且,从未证明它们可以保留数据超过十年。那么,为什么经常建议他们备份?因为它们曾经很便宜:在过去,使用磁带的成本要比HDD便宜10到100倍,而且HDD的稳定性往往比现在差很多。因此,出于成本效益的考虑,主要建议使用磁带进行备份,而不是因为弹性,这是我们在存档数据时最感兴趣的。
众所周知,CompactFlash和Secure Digital(SD)卡非常坚固耐用,能够在灾难性条件下生存。
《数码相机购物者》杂志发现,大多数相机中的存储卡几乎坚不可摧。五种存储卡格式在煮沸,践踏,清洗和浸入咖啡或可乐后幸免于难。
但是,与任何其他基于磁性的介质一样,它依靠电场来保留数据,因此,如果卡上的果汁用完了,数据可能会完全丢失。因此,这不是理想的冷藏选择(因为您有时需要重写卡上的全部数据以刷新电场),但是它可以用作备份和短期或中期归档的良好介质。
光学介质:光学介质是一类依靠激光读取数据的存储介质,例如CD,DVD或蓝光(BD)。这可以看作是纸张的发展,但是我们以很小的尺寸写入数据,因此我们需要比纸张更精确,更具弹性的材料,而光盘就是这样。光学介质的两个最大优点是,存储介质与读取硬件分离(例如,如果您的DVD读取器发生故障,您可以随时购买另一个介质来读取磁盘),并且该介质基于激光,这使其成为通用且面向未来的证明(即,只要您知道如何制造激光器,就可以始终通过仿真来调整它,以读取光盘的位,就像CAMILEON为Domesday BBC Project所做的那样)。
像任何技术一样,新的迭代不仅提供更大的密度(存储空间),而且还提供了更好的纠错功能,并且具有更好的抵御环境衰减的能力(并非总是如此,但通常是正确的)。关于DVD可靠性的第一个争论是在DVD-R和DVD + R之间,即使DVD-R在当今仍然很普遍,但人们公认DVD + R 更可靠,更精确。现在有专门用于冷藏的档案级DVD光盘,声称它们无需任何维护即可承受至少20年的使用寿命:
verbatim金档案DVD-R在广受好评的德国c't杂志(c't 16/2008,第116-123页)的长期长期压力测试中被评为最可靠的DVD-R。 daccess-ods.un.org daccess-ods.un.org最低耐久性为18年,平均耐久性为32至127年(在25℃,50%湿度下)。没有其他光盘能接近这些值,第二好的DVD-R的最低耐用性仅为5年。
来自LinuxTech.net。
此外,一些公司专门从事非常长期DVD归档和广泛销售这些产品,像Millenniata或DataTresorDisc的M-光盘,声称他们可以在1000年保存数据,并通过验证一些(非独立)研究(从2009年)中,科学较少他人。
这一切看起来非常有希望!不幸的是,没有足够的独立科学研究来证实这些说法,而可用的少数方法并不那么热情:
湿度(80%RH)和温度(80°C)通过测试2000小时(约83天)并定期检查数据的可读性,加速了几张DVD的老化:
翻译自法国数字资料档案机构(Archives de France),研究始于2012年。
第一张图显示DVD的降解速度缓慢。第二张DVD具有快速降级曲线。第三个是用于特殊的“非常长期”的DVD,例如M-Disc和DataTresorDisc。如我们所见,它们的性能与标准的非档案级DVD相比较低或相当,与要求不符!
但是,诸如M-Disc和DataTresorDisc之类的无机光盘具有一个优点:它们对光降解非常不敏感:
在240小时内使用光(750 W /m²)加速老化:
这些都是很好的结果,但是档案级别的DVD(例如Verbatim Gold Archival)也能达到相同的性能,此外,光是对象最可控制的参数:将DVD放在密闭的盒子或壁橱中非常容易,因此消除任何可能的光线影响。获得对温度和湿度比光具有很大弹性的DVD会更加有用。
这个研究小组还研究了蓝光市场,看是否有任何品牌可以长期保存良好的介质。这是他们的发现:
在与DVD相同的参数下,湿度和温度加速了多个蓝光品牌的老化:
多个BluRays品牌的光加速老化,具有相同的参数:
摘自2012年法国档案馆的这项研究。
这里和这里所有发现的两个摘要(法语)。
最好的是,最好的蓝光光盘(来自Panasonic)在湿度和温度测试中的表现与最好的档案级DVD相似,而实际上对光不敏感!而且,这种蓝光光盘甚至不是档案级的。此外,蓝光光盘比DVD使用增强的纠错码(本身使用的是相对于CD的增强版本),这进一步降低了丢失数据的风险。因此,似乎某些BluRay光盘可能是冷藏的很好选择。
确实,一些公司已经开始研究档案级的高密度存储蓝光光盘,例如松下和索尼,宣布它们将能够提供300 GB至1TB的存储空间,平均使用寿命为50年。另外,大公司也将目光转向用于冷存储的光学介质(因为它消耗更少的资源,因为您可以在没有任何电源的情况下进行冷存储),例如Facebook开发了一种将蓝光光盘用作“冷”的机器人系统。存储”以供他们的系统很少访问的数据。
Long Now档案计划:还有其他有趣的线索,例如Long Now博物馆的Rosetta Disc项目,该项目可以用创世记翻译成的地球上的每种语言书写创世记的微观尺寸页面。这是一个了不起的项目,这是第一个提供一种介质的方法,该介质可以存储50 MB的存储空间(因为它是用碳写成的),而且可以长期保存(因为它是用碳写的),并且因为它只需要一个放大镜就可以访问。数据(没有奇怪的格式规格,也没有技术上的麻烦,例如蓝光的紫光光束,只需要一个放大镜!)。但是,这些仍然是手工制作的,因此估计要花费2万美元,对于我个人的档案计划而言,这有点过分了。
基于Internet的解决方案:另一种冷存储数据的媒介是通过网络。但是,云备份解决方案不是一个很好的选择,因为主要问题是云托管公司可能不会生存,只要您希望保留数据即可。其他原因包括备份速度非常慢的事实(因为它是通过Internet传输的),并且大多数提供商都要求文件也存在于您的系统中才能保持它们在线。例如,CrashPlan和Backblaze都将永久删除在过去30天内在计算机上至少看不到一次的文件,因此,如果要上传仅存储在外部硬盘驱动器上的备份数据,则必须插入USB HDD每月至少一次,并与您的云同步以重置倒计时。然而,某些云服务可以无限期地(当然,只要您付费即可)保留文件而不会倒计时,例如SpiderOak。因此,请务必注意您选择的基于云的备份解决方案的条件和使用情况。
云备份提供商的另一种选择是在线租用自己的私有服务器,并且如果可能的话,选择一台可以自动镜像/备份数据的服务器,以防万一发生硬件故障(少数服务器甚至保证您不会因合同中的数据丢失) ,但当然更贵)。这是一个很好的解决方案,首先是因为您仍然拥有自己的数据,其次是因为您不必管理硬件的故障,这是主机的责任。而且,如果您的主机有一天停业了,您仍然可以取回数据(选择一台严肃的主机,以使它们不会在一夜之间关闭,而是提前通知您,也许您可以要求将其放入合同中),并在其他地方重新托管。
如果您不想麻烦地设置自己的私人在线服务器,并且可以负担得起的话,亚马逊会提供一项名为Glacier的新数据存档服务。目的是为了长期长期保存数据:因此,将数据存储在Glacier上会花费很多,但由于要使用此服务来存储无法访问的数据,因此取回这些数据的成本甚至更高。 ,而不是保留要经常访问的数据。这意味着该服务为写入数据以及读取数据提供报价。这项服务的成本很高,但是对于您最敏感的一些数据来说可能是一笔不错的交易(例如:如果您有一些非常敏感的文本文件或图像,由于此类数据通常很小,因此存储在冰川中不会花很多钱。
冷存储的缺点:但是,任何冷存储介质都有一个很大的缺陷:没有完整性检查,因为冷存储介质无法自动检查数据的完整性(它们只能实施纠错方案来“修复”某些数据。损坏发生后造成的损坏,但是无法防止或自动进行管理!)因为与计算机相反,没有处理单元可以计算/统计/检查和更正文件系统。而对于一台计算机和多个存储单元,如果数据存档中发生了某些损坏(只要您具有同一存档的多个副本),则可以自动检查存档的完整性,并在必要时自动镜像到另一个单元。
长期档案
即使使用目前最好的技术,数字数据也只能被冷藏几十年(大约20年)。因此,从长远来看,您不能仅仅依赖于冷存储:您需要为数据归档过程设置一种方法,以确保将来可以检索数据(即使随着技术变化),并且可以最大程度地降低风险丢失数据。换句话说,您需要成为数据的数字策展人,在发生损坏时进行修复,并在需要时重新创建新副本。
没有万无一失的规则,但是这里有一些既定的策展策略,尤其是一种神奇的工具,可以使您的工作更轻松:
- 冗余/复制原理:冗余是唯一可以还原熵效应的工具,这是基于信息论的原理。要保留数据,您需要复制此数据。错误代码正是冗余原理的自动应用。但是,您还需要确保数据是冗余的:同一数据在不同光盘上的多个副本,在不同介质上的多个副本(因此,如果一个介质由于内在问题而失败,那么在不同介质上的其他介质也很少会同时失败),等等。特别是,您应该始终至少拥有3个数据副本,在工程中也称为3模块化冗余,这样,如果您的副本损坏了,您可以进行简单的多数表决,从3个副本中修复文件。永远记住水手的指南针建议:
带两个指南针是没有用的,因为如果一个指南针出错了,您将永远无法知道哪个指南针是正确的,或者两个都不正确。始终使用一个或三个以上的指南针。
错误纠正代码:这是一种神奇的工具,可以使您的生活更轻松,数据更安全。纠错码(ECC)是一种数学构造,它将生成可用于修复数据的数据。这是更有效的方法,因为与简单复制(例如,制作文件的多个副本)相比,ECC可以使用更少的存储空间来修复大量数据,甚至可以用来检查文件中是否包含任何副本。腐败,甚至找到那些腐败在哪里。实际上,这确实是冗余原理的一种应用,但是比复制更聪明。这项技术已广泛应用于当今的任何远程通信中,例如4G,WiMax,甚至是NASA的太空通信。不幸的是,尽管ECC在电信中无处不在,但它们并未进行文件修复,可能是因为它有点复杂。但是,有一些软件可用,例如著名的(但现在已经很旧)的PAR2,DVD Disaster(可在光盘上添加纠错码)和pyFileFixity(我为克服PAR2的局限性和问题而部分开发)。还有一些文件系统可以选择实现Reed-Solomon,例如Linux的ZFS或Windows的ReFS,从技术上讲,它们是RAID5的概括。
定期检查文件的完整性:散列文件,并不时检查它们(即每年一次,但这取决于存储介质和环境条件)。如果发现文件损坏,是时候使用生成的ECC进行修复了,并且/或者在新的存储介质上制作了新的数据副本。检查数据,修复损坏和制作新副本是一个很好的策划周期,它将确保您的数据安全。特别地,检查非常重要,因为您的文件副本会被静默破坏,如果再复制被篡改的副本,则最终将导致文件完全损坏。对于诸如光盘之类的冷存储介质,这尤其重要,它不能自动检查数据的完整性(它们已经实现了ECC,可以稍作修复,但他们无法自动检查或创建新的新副本,这就是您的工作!)。要监视文件更改,可以使用以下命令的rfigc.py脚本:pyFileFixity或其他UNIX工具,例如md5deep。您还可以使用诸如Hard Drive Sentinel或开源smartmontools之类的工具检查某些存储介质(如硬盘驱动器)的健康状态。
将您的存档介质存储在不同的位置(房子外面至少要有一份副本!),以避免发生洪水或火灾等现实生活中的灾难性事件。例如,工作中的一张光盘或基于云的备份可能是满足此要求的一个好主意(即使可以随时关闭云提供商,只要您有其他副本,也可以放心使用) ,则云提供商仅在紧急情况下充当离线存档。
存放在具有受控环境参数的特定容器中:对于光学介质,请避开光线,并存放在防水盒中以避免潮湿。对于硬盘驱动器和sd卡,应将其存放在防磁套中,以防止残留的电能损坏驱动器。您还可以将其存储在不透气和不漏水的袋/盒中,然后存储在冰箱中:低温会降低熵,并且可以延长任何此类存储介质的使用寿命(只需确保将水不要进入内部,否则您的媒体会很快死亡)。
请使用高质量的硬件并事先进行检查(例如:购买SD卡时,请在写入数据之前使用HDD Scan之类的软件测试整个卡,以确保一切正常。)这对于光盘驱动器尤其重要,因为如法国档案馆的研究所示,光盘驱动器的质量会极大地改变刻录光盘的质量(不良的DVD刻录机将生产出使用寿命更长的DVD)。
仔细选择文件格式:并非所有文件格式都可以抵抗损坏,有些甚至明显很弱。例如,通过仅篡改一个或两个字节,.jpg图像可能会完全损坏并且无法读取。与7zip存档相同。这太荒谬了,因此请注意存档文件的文件格式。根据经验,最好使用简单的明文,但如果需要压缩,请使用非固定的zip,对于图像,请使用JPEG2(尚不开放源代码...)。有关专业数字策展人的更多信息和评论,请在此处,此处和此处。
与数据档案一起存储读取数据所需的所有软件和规范。请记住,规范变化很快,因此即使您可以访问文件,将来您的数据也可能不再可读。因此,您应该首选开放源代码格式和软件,并将程序的源代码与数据一起存储,以便始终可以使程序从源代码改编,以便从新的OS或计算机启动。
许多其他方法和方法都可以在此处,此处以及Internet的各个部分获得。
结论
我建议您使用现有的,但要始终遵循冗余原则(制作4个副本!),并始终定期检查完整性(因此,您需要预先生成MD5 / SHA1哈希的数据库),并创建新的复制以防万一。如果这样做的话,从技术上讲,无论您想要哪种存储介质,都可以将数据保留多长时间。每次检查之间的时间取决于存储介质的可靠性:如果是软盘,则每2个月检查一次;如果是蓝光HTL,则每2/3年检查一次。
现在处于最佳状态,我建议冷藏使用蓝光HTL光盘或档案级DVD光盘,这些光盘存储在不透水的不透明盒子中并存放在新鲜的地方。此外,您可以使用SD卡和基于云的提供程序(例如SpiderOak)来存储数据的冗余副本,如果您更容易访问它,则可以存储硬盘。
使用许多错误纠正代码,它们可以节省您的时间。另外,您可以制作这些ECC文件的多个副本(但数据的多个副本比ECC的多个副本更重要,因为ECC文件可以自行修复!)。
可以使用我正在开发的一组工具(开源)pyFileFixity来实现这些策略。该工具实际上是在讨论之后开始的,因为发现没有免费的工具可以完全管理文件的固定性。另外,请参阅项目的自述文件和Wiki,以获取有关文件固定性和数字策展的更多信息。
最后,我确实希望在此问题上进行更多的研发。对于当今社会来说,这是一个重要的问题,越来越多的数据已经数字化,但是并不能保证这些信息的生存期会超过几年。这真令人沮丧,我确实认为应该将此问题放在首位,以便成为构造商和公司制造可以用于后代的存储设备的营销点。
/编辑:请参阅以下内容,了解实用的整理程序。