具有成本效益的视频和图像数据的长期存档?约50 TB


16

我的实验室正在建立一个小型服务器,该服务器存储着我们小组正在处理的项目的数据(主要是视频和图像数据以及一些文档)。从历史上看,在一个研究项目结束之后,数据偶然地最终存储在一个硬盘或一大堆DVD(或旧时代的CD)中,和/或某些视频最终存储在Sony DV卡带中,甚至VHS磁带(自90年代初以来一直活跃于该实验室),或上述所有物质的混合物...

问题:(1)将它们全部合并到相同格式和存储介质中的最佳方法是什么,(2)对于偶尔访问(例如30年以上)的此类数据进行长期归档的最佳介质是什么?不幸的是,我们没有企业级的预算(我们只是一个约10人的实验室),因此不能做花费数十万美元的事情。

谢谢!

PS考虑到我们的旧视频和图像分辨率较小,但最近的图像和图像分辨率很高,我认为我们正在谈论的是真正的旧数据为30〜40 TB,最近的数据为10〜20 TB,然后每年增加约5 TB 。

Answers:


22

不幸的是,没有最好的方法给您。30年的数字媒体存档是一个非常困难的问题,需要常规投资。保证在30年内唯一可读的格式是ASCII和UTF8,它们不是视频格式。存储格式发生了变化,即使数据仍在磁带上,我们近30年来仍无法读取8条轨道式磁带到磁带(关于NASA重建一个已有40年历史的磁带驱动器的有趣故事以获取一些新近恢复/发现的Apollo数据磁带)。最好的选择是每五年进行一次定期的归档环境评估,预算要足够,以将旧格式转换为新格式。

您可能比我了解得更多,但是视频领域正在迅速变化。现在可以进行实时在线编辑,即使在十年前,也只能在非常好的工具包上进行实时在线编辑。谁知道30年后的样子。

  • 将存档窗口设置为5年。
    • 近期内,大型存储阵列就足够了(
      • 容量大而缓慢的50TB磁盘的价格不到7万美元,可能还不高。
      • 一个LTO5磁带驱动器和50根磁带(价值超过50TB)可以用不到15,000美元的价格购买。
  • 您可以采用哪种格式存储视频。
  • 开始查找所有旧内容并将其转换为该新存储。
  • 在5年结束时,请对档案环境进行另一项全面评估。
    • 您使用什么格式?
    • 什么是较新的格式?
    • 哪些编解码器似乎是死胡同,您以这种方式存储了什么媒体编码?
    • 确定如何迁移到较新的存储方法(数据格式,磁盘/磁带/其他东西)并适当地花费。
  • 重复6次。

那应该使您达到30岁。


+1,如果您真的想便宜,可以每10年这样做一次。ATA-66和100驱动器是十年前的首选高清技术,并且仍然有与之相关的技术。但是,周围已经有缺少IDE标头的计算机,十年的老技术日渐流行。
克里斯·S

6
+1代表复制的要点,但-1代表断言格式将变得不可读。一旦数据在可复制介质上可用,除非这些文件采用非常奇特的格式,否则它们不太可能无法播放。归档到像MPEG2这样的非常主流的格式中很有可能是一种持久格式。对有损视频进行代码转换是一个有损过程。不应该这样做。保持主流视频编解码器不花任何费用……
Paul McMillan,2010年

@Paul感谢您的提示。我上次经常与视频人见面是在7年前,所以我很生锈。
sysadmin1138

非常感谢您的详细评估和提示!不幸的是,我们将在有限的IT预算范围内尽力而为。非常高兴大家和serverfault.com在这里为您提供帮助。
hpy

是的,我们走了一条路。不过,我从Windows 3.1天播放17年的AVI文件没有问题。诀窍在于选择已经被广泛使用的格式。
保罗·麦克米伦

11

我完全同意sysadmin1138的各个方面,但请特别注意-我认为您没有预算来真正实现您想要的。

您需要创建5个主要功能。

  • 标准化的内容和目录政策-我知道您想以一种格式存储所有内容,但您确实应该考虑两种-图像的PDF和视频的H.264-都是长期支持的格式,几乎都具有多平台代码当然,由于世界各地的现有用法,一党或另一党将以目前的形式获得25至50年的支持。
  • 目录或CMS来索引和发布内容。
  • 一个“内容获取”系统-这将采用您所有的媒体,打包,编码,存储和更新每个新内容的目录。您还将需要进行手动或自动的内容质量检查。
  • 主要内容存储库-这将有两个主要存储块;一个小的用来存放原始内容,然后对它进行转码/检查,另一个很大的块用来存放原始内容。这是我遇到的RAID 6的唯一有效用法之一,但请尝试在此处使用具有24x365“工作周期”的企业级质量磁盘。
  • 长期备份系统-这是花费真钱的地方,您需要选择能够提供真正长期备份功能的供应商。如果我现在就这样做,那么纯粹出于数据寿命的考虑,我还是会继续使用磁盘上的磁带,也许是IBM,因为他们在这一领域有很多经验。您还需要考虑到还需要定期进行磁带还原和数据验证,这意味着您将需要至少与您拥有的最大磁带一样大的第三个存储块,当然也需要进行系统验证。最重要的是,您还需要确保使用的备份软件也能使用很长时间,例如* nix上的TAR可能会存在一段时间,但可能无法在功能上为您提供所需的功能确保这不会被磁带供应商忽视。

因此,您想做的事可以完成,在过去的二十多年中,我本人已经做过很多次了,但恐怕都不便宜。

祝好运。


用于图像的PDF似乎是一种非常糟糕的方法。是的,对于文档来说绝对是PDF,但是根据您的输出格式将图像保留为tiff或JPEGS。阅读这些内容的能力不太可能消失。
保罗·麦克米兰

感谢您的提示!如果我可以标记两个已接受的答案,我会这样做。:)
hpy

1
没关系,彭源山(Penyuan),1138年,是芽;)
Chopper3 2010年

2
坦白地说,任何类型的CMS系统都存在困难,那就是它很可能是系统中最重要的部分。要求每个人编写一个带有一些基本描述的ASCII文本文件并将其与原始数据一起存储,几乎是更好的选择。任何CMS或自动化系统都会在几年内老化。
保罗·麦克米兰

3

其他人对如何备份媒体提供了很好的建议。我建议您花一些时间查看国会指南库:

http://www.digitalpreservation.gov/formats/index.shtml

您可能还会考虑构建便宜的白盒ZFS阵列。您可能需要花不到1万美元就能满足您的需求。随着驱动器的消失,请用更大的驱动器替换它们,因此,存储容量会随着生成数据的增长而增加。这可能会使您花费相当长的一段时间,并且可以在设备变旧时将其替换为更高容量的设备。这样做的好处是您的数据是联机的(因此可以根据需要访问它),并且相对来说可以很好地防止bitrot的侵害,而bitrot是拥有大量数据的严重问题。

一个不错的构建选项在这里放在一起:

http://www.zfsbuild.com/


2

对于技术人员而言,尽管如此困难,但我建议立即停止对磁盘和技术的思考。将您的业务问题分解为必须做出决策的事情。

例:

  • 您如何处理将模拟/其他数字磁带格式转换为可以存储在某种数字存储中的数字媒体?
  • 您将如何管理内容和相关的元数据?存储很容易-您可以将所有内容放在LTO磁带上并将其存储在旧的盐矿中,但是您将无法访问数据。
  • 您要重新发明轮子吗?如果您在大学里,是否已经可以集中使用内容管理解决方案?或者,如果您需要购买/构建自己的内容管理,是否可以购买其中的集中式基础架构?(磁带,对象存储,SAN)
  • 真正的业务需求是什么?您真正想要保留什么,为什么?通常,当您真正深入研究问题的核心时,真正的长期保留要求实际上仅适用于一小部分数据。

1

请注意,如果您以有损格式存储数据,然后转换为另一种有损格式,然后再转换为另一种有损格式,则视频质量会随着每次转换而降低。

以下是关于音频的讨论,但通常适用于音频:

您可以将任何音频格式转换为Ogg Vorbis。但是,从一种有损格式(如MP3)转换为另一种有损格式(如Vorbis)通常是个坏主意。MP3和Vorbis编码器都通过丢弃可能听不到的音频波形部分来实现高压缩率。但是,MP3和Vorbis编解码器非常不同,因此尽管肯定存在一些重叠,但它们各自将丢弃音频的不同部分。将MP3转换为Vorbis涉及将MP3文件解码回未压缩的格式(例如WAV),然后使用Ogg Vorbis编码器对其进行重新压缩。解码后的MP3将丢失MP3编码器选择丢弃的原始音频部分。然后,Ogg Vorbis编码器在压缩数据时将丢弃其他音频分量。最好,结果将是一个与原始MP3声音相同的Ogg文件,但最终结果听起来比原始MP3声音差。在任何情况下,您都不会获得比原始MP3更好的文件。

由于许多音乐播放器都可以播放MP3和Ogg文件,因此没有理由不必将所有文件都切换为一种格式或另一种格式。如果您喜欢Ogg Vorbis,那么我们建议您从原始的无损音频源(例如CD)进行编码时使用它。从原始文件进行编码时,您会发现可以制作比MP3小或质量更好(或两者兼有)的Ogg文件。

(如果您绝对必须从MP3转换为Ogg,Freshmeat上提供了几种转换脚本。)

http://www.vorbis.com/faq/#transcode

因此,最好选择一种无损格式,因为一旦选择了一种有损格式,就会陷入困境。


3
无损视频目前尚不实用。每分钟的片段存档演出实在太昂贵了。选择一个令您满意的有损编解码器,该编解码器已得到广泛使用,并将您的媒体保留在其中。
保罗·麦克米兰

感谢有关无损性的观点,我们一定会认真考虑的。
hpy

1

也许是我缺少了一些东西,难道您无法使用开放格式对所有编解码器的源代码都可用的开放格式进行编码,然后将其全部粘贴在Amazon S3上吗?

这样一来,亚马逊就不必担心数据的实际存储,并且,除非在30年内没有计算机可以编译C / C ++,否则您将能够获取这些信息...

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.