Questions tagged «archive»

11
传输15TB的小文件
我正在将数据从一台服务器归档到另一台服务器。最初我开始rsync工作。它只花了2周的时间就建立了仅用于5 TB数据的文件列表,又花了一周的时间来传输1 TB的数据。 然后我不得不取消工作,因为我们需要在新服务器上停机。 我们已经同意将其压缩,因为我们可能不需要再次访问它。我当时正在考虑将其分成500 GB的块。在我完成tar之后,我将复制整个过程ssh。我正在使用tar,pigz但仍然太慢。 有更好的方法吗?我认为两个服务器都在Redhat上。旧服务器是Ext4,新服务器是XFS。 文件大小从几kb到几mb不等,5TB中有2400万个jpeg。因此,我估计15TB大约需要60-80百万。 编辑:与rsync,nc,tar,mbuffer和Pigz玩了几天后。瓶颈将是磁盘IO。由于数据跨500个SAS磁盘和约2.5亿jpeg数据条带化。但是,现在我了解了以后可以使用的所有这些好工具。

8
是否有更聪明的tar或cpio,可以有效地检索存档中存储的文件?
我tar用来存档一组非常大的bz2文件(多GB)。 如果我tar -tf file.tar用来列出存档中的文件,则需要很长时间才能完成(约10-15分钟)。 同样,完成cpio -t < file.cpio过程需要花费同样长的时间,大约要花几秒钟的时间。 因此,从存档中检索文件(tar -xf file.tar myFileOfInterest.bz2例如,通过)的速度很慢。 是否有一种存档方法,可以随时随地保存存档的“目录”,以便可以快速检索存档中的单个文件? 例如,某种目录存储指向存档中特定字节的指针,以及要检索的文件的大小(以及任何其他特定于文件系统的详细信息)。 是否有一个工具(或参数tar或cpio)允许归档中的文件的高效检索?
24 linux  tar  archive  cpio 

14
Exchange环境中的电子邮件归档
我们正在寻找一种解决方案来对我们的Exchange Server 2007环境进行电子邮件归档和近线备份。 目前,我们有约200个邮箱,邮件存储区约为150 GB。我们需要能够出于法律目的将电子邮件存档数年,并且希望存档解决方案还可以帮助加快恢复已删除邮件的速度(如果可能)。我们的系统支持顾问已推荐Mimosa。 在这个市场领域,有人对含羞草或其他产品有经验吗?

6
具有成本效益的视频和图像数据的长期存档?约50 TB
我的实验室正在建立一个小型服务器,该服务器存储着我们小组正在处理的项目的数据(主要是视频和图像数据以及一些文档)。从历史上看,在一个研究项目结束之后,数据偶然地最终存储在一个硬盘或一大堆DVD(或旧时代的CD)中,和/或某些视频最终存储在Sony DV卡带中,甚至VHS磁带(自90年代初以来一直活跃于该实验室),或上述所有物质的混合物... 问题:(1)将它们全部合并到相同格式和存储介质中的最佳方法是什么,(2)对于偶尔访问(例如30年以上)的此类数据进行长期归档的最佳介质是什么?不幸的是,我们没有企业级的预算(我们只是一个约10人的实验室),因此不能做花费数十万美元的事情。 谢谢! PS考虑到我们的旧视频和图像分辨率较小,但最近的图像和图像分辨率很高,我认为我们正在谈论的是真正的旧数据为30〜40 TB,最近的数据为10〜20 TB,然后每年增加约5 TB 。

4
创建包含校验和的tar文件
这是我的问题:我需要将大量(最大30到40 GB)大文件(最多60 TB)归档到tar文件中。我想在归档之前对这些文件进行校验和(md5,sha1等)。然而不读每一个文件两次(一次执行校验,两次tar'ing)或多或少的必需品,以达到很高的归档性能(LTO-4要120 MB / s的持续,以及备份窗口是有限的)。 因此,我需要某种方式来读取文件,在一侧提供一个校验和工具,在另一侧构建一个tar到磁带,类似于: tar cf - files | tee tarfile.tar | md5sum - 除了我不希望整个档案的校验和(此示例shell代码仅执行此操作),而是要档案中每个文件的校验和。 我研究了GNU焦油,Pax,Star选项。我查看了Archive :: Tar的源代码。我认为没有明显的方法可以实现这一目标。看来我必须手工用C或类似的东西来实现我所需要的。Perl / Python / etc根本无法降低性能,并且各种tar程序都缺少必要的“插件架构”。在开始编写代码之前,是否有人知道任何现有的解决方案?

3
archive.debian.org上的wheezy-updates返回404 Not Found
我在Debian Wheezy上有一台旧的测试机,现在无法真正更新。 Debian Wheezy存储库已于2月份归档。所以我要前进,并/etc/apt/sources.list从 deb http://ftp.fr.debian.org/debian wheezy main deb http://security.debian.org/ wheezy/updates main deb http://ftp.fr.debian.org/debian wheezy-updates main 至 deb http://archive.debian.org/debian wheezy main deb http://security.debian.org/ wheezy/updates main deb http://archive.debian.org/debian wheezy-updates main 但是,在运行时apt-get update,出现此错误: # apt-get update <snip> Err http://archive.debian.org wheezy-updates/main i386 Packages 404 Not Found [IP : 193.62.202.28 80] 其他存储库正在更新,没有问题。 我想念什么吗?

8
使用Linux自制的自动分层存储解决方案?(内存-> SSD-> HDD->远程存储)
与这个问题有关,关于将SSD用于系统,将HDD用于数据,除了我希望系统自动执行此操作外... 是否可以使用最好是免费的开源软件进行多层存储并在它们之间自动推送项目? 我知道非常昂贵的企业级解决方案,例如EMC SAN-> EMC Centera自动归档,但是我想知道这种分段存储是否可以自动完成。 能够在其中具有多个层将是很好的:内存-> SSD-> HDD->速度较慢的HDD或磁带或某些其他存档解决方案。 是否有任何文件系统可以自动执行此操作?(ZFS,Btrfs,HAMMER?) 任何Unix变量都很好,因为我对它的工作方式以及它是否可以移植到Linux或其他版本(BSD等)感兴趣。
13 linux  unix  ssd  archive  storage 


9
寻找开源电子邮件归档应用程序
按照目前的情况,这个问题并不适合我们的问答形式。我们希望答案得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。 7年前关闭。 已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我正在寻找一个可以存档我的电子邮件的开源应用程序。它可以通过定期登录我的POP3帐户并复制电子邮件来完成此操作,也可以直接在邮件服务器上读取我的Unix mbox / maildir文件/目录。 它必须是开放的,并且必须在Linux(或实际上是任何开放的OS)上运行。理想情况下,它将具有Web界面,但这不是主要要求。 MXsense(http://www.mxsense.com/mxsense.html)似乎是我想要的,但它没有打开。 我不需要MS Exchange支持。 有什么建议? 的理由(也许有点傻)是我专门运行Linux,它仍然没有一个电子邮件客户端,是任何接近的MS Outlook来讲迷死人,所以我发现自己常常邮件客户端之间切换。如果我有我的电子邮件存档,我会对此感觉更好,因此,本月使用哪个邮件客户端都没有关系。

2
如何使用正则表达式从TAR存档中排除文件?
我有一个简单的问题,但找不到或解决答案。我想创建一个tar存档,但是我想使用正则表达式从中排除一些文件。 要排除的文件示例如下: 68x640X480.jpg 我没有运气尝试过这个: tar cvf test.tar --exclude=[0-9]+x[0-9X]+\.jpg /data/foto 有人可以帮忙吗?
10 linux  tar  regex  archive 

3
有关存档解决方案的一般建议。〜15tb并且还在增长。
我需要一个用于小型企业文件的更好的存储和存档系统。具体来说,文件是完整的视频项目。除了时间和成本限制之外,让我退缩的是我不相信我所考虑的任何解决方案。因此,我正在提出问题和我的想法。我将不胜感激。 预算: 我相信要花一切。话虽如此,我们是一家小企业。我希望我可以在<5k以及1-3k左右的范围内摆脱困境。那可能是个白日梦。就是这样告诉我。 问题: 原始视频文件的文件大小很大。到目前为止,我们已经积累了大约10 TB以上的数据,并且正在快速增长。 视频编辑需要对文件的快速读/写访问权限,因此中央或基于云的文件服务器将不够快。因此,我们可能需要针对旧项目的实现解决方案,而当前项目将不得不留在本地。 我们需要某种冗余和异地解决方案。 我们目前正在做什么: 我们使用大型,高质量的外部硬盘驱动器。 我们总是成对购买并手动复制内容。换句话说,我们从一个工作,然后将文件复制到另一个,作为备份/回退。 这些HD通过firewire800或USB3足够快,可以直接工作。 装满后,我们将其放在一旁。 当前解决方案出了什么问题: 尽管跨两个驱动器复制了数据,但是这些驱动器不是“备份”的,也不是在异地存储的。 跨许多外部HD进行组织非常困难。什么项目在什么驱动器上?等等 最终,我们将拥有大量的硬盘。 复制不是RAID。 选项: 本地服务器 购买机架安装服务器和机架安装的硬盘驱动器阵列机柜,例如Norco(SAS)(20个托架)。 所有视频文件都将存储在此服务器上。我们可以安装并支付云服务来备份这台计算机/服务器。CrashPlan在Linux上运行,并且对数据量没有限制。硬盘驱动器将是连接到服务器的物理驱动器,因此我们避开了像CrashPlan这样的公司拥有的“无NAS”规则。它不是个人计算机,因此同步可以运行24/7/365。这样可以解决异地问题。 代替使用像CrashPlan这样的在线备份服务,我们可以编写脚本将这些文件同步到Amazon Glacier帐户。 视频可以窥视当前项目的外部硬盘驱动器的策略,但在完成后必须将该项目放置在此新计算机上。换句话说,继续将外部硬盘驱动器用于当前项目,并将归档的项目存储在此服务器上。 基于云的备份服务(CrashPlan.com,BackBlaze.com,Carbonite.com) 通常,仅允许您备份物理连接到计算机的外部硬盘驱动器。(无NAS或网络驱动器)。 通常,他们希望备份的外部驱动器保持与计算机的连接,而所有数据仍保留在驱动器中。如果您几个月都没有连接外部硬盘驱动器,那么备份将如何处理?如果您通过删除旧项目来清理空间,则它们也会从联机服务中删除。 要求我们的用户将外部硬盘驱动器留在计算机上,直到所有数据都在云中为止。大型项目可能需要数周的时间。 由于Internet的传输速度,恢复项目将非常缓慢。 这些云备份帐户通常特定于一台用户/一台计算机。因此,如果一个硬盘驱动器由一个用户备份。然后,另一个用户在项目上工作,这是什么意思? 大型NAS NAS是“网络区域存储”。您要插入尽可能多的硬盘驱动器。它将突袭他们。您可以通过网络连接或USB3 / Firewire进行访问。 大多数都包含一个操作系统。因此,您无法运行其他软件,例如基于云的备份服务。您也无法进行任何自定义或运行自己的软件。你得到你买的东西。 大型NAS相当昂贵,但并不是那么大。您不会发现超过4个海湾的许多海湾。目前,大型HD为3tb。因此4bay的存储空间可能不到12tb。未来并不超级舒适。 其他想法是: 磁带备份。 只需将较旧的项目直接归档到Amazon Glacier,跳过构建本地服务器来存储它们。 感谢您的任何建议!!!杰德

7
哪种存档/压缩格式?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 Zip,Rar,7z,Gzip,BZip2,Tar等。我听说7z是本月的风情,为什么?是最适合所有情况,还是针对特定情况有更好的选择? 还是实际的文件存档器(例如WinZip,WinRar,7Zip等)(相对于格式)会产生更大的影响? 在您的答案中,您可以描述提到的格式使用哪种速度/压缩权衡。 请提供指向任何可支持您答案的经验测试的链接。 背景:我需要备份一个自定义搜索索引,该索引可以创建大约3000个相对较小的文件(小于10MB),每个文件包含大量重复数据。 (与往常一样,维基百科上有一篇相关的文章,但是关于性能比较的部分很简短。) 谢谢
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.