我需要将20TB的数据复制到雷电阵列上。数据存在的盒子没有雷电连接,因此我需要使用本地1GB网络。(是的,这将是永远的)。
我尝试使用Filezilla / sftp,但是当队列变得非常大时崩溃。rsync或scp是可行的方式吗?
我需要将20TB的数据复制到雷电阵列上。数据存在的盒子没有雷电连接,因此我需要使用本地1GB网络。(是的,这将是永远的)。
我尝试使用Filezilla / sftp,但是当队列变得非常大时崩溃。rsync或scp是可行的方式吗?
Answers:
rsync是一个很好的方法(scp几乎与以前相同,但功能较少)。您可能要使用该-Z
选项,它将启用zlib压缩。根据您的驱动器/计算机的速度,它可能比发送未压缩的速度(即,如果您的网络链接已饱和)更快。您可能还需要“存档模式”选项,-a
该选项将保留符号链接,权限和创建/修改时间,以及递归复制目录。根据您要复制的内容,可能会-E
保留扩展属性和mac资源派生。最后,--progress
将向您显示进度信息。
尽管不像rsync那样普遍,但我过去使用的工具名为“ mpscp”-http: //www.sandia.gov/MPSCP/mpscp_design.htm
来自Sandia National Labs的文件复制工具运行在SSH上,该工具经过特别优化,可以使封闭系统之间的高速网络饱和(例如,在同一站点的两台超级计算机之间复制10 TB的数据,通过10Gb +或Infiniband连接)。它运作良好,但设置起来可能有些麻烦。在测试中,我很容易看到它的运行速度比rsync快2到3倍。
使用rsync并考虑将其与rsyncd一起使用。如果您在不使用rsyncd的情况下使用rsync,那么您将无法使用ssh,这意味着使用某种加密。您可能正在将数据从较旧的计算机复制到较新的计算机,并且较旧的计算机可能没有CPU负担,无法加密数据以进行足够快的传输以保持千兆位以太网链路饱和。使用这两种方法测试传输文件批次,看看哪种方法更快。
出于同样的原因,我建议在承诺使用rsync的压缩选项之前对其进行测试。压缩是另一种占用大量CPU资源的活动,当尝试使用较旧的硬件时,压缩可能无法跟上千兆位以太网的速度。rsync是一个具有15年历史的程序,当甚至在第一世界国家中的大多数人都通过拨号调制解调器访问Internet时,它便可以回写。网络带宽与CPU权衡之间的差异就很大。
-e
选项。使用相同的选项,您可以更改ssh的选项以使用较少的cpu密集加密:-e 'ssh -c arcfour,blowfish-cbc'
或类似方法。我不知道这是否会对现代计算机带来任何速度差异,但是快速基准测试可能是值得的,尤其是对于20 TB的文件。
另一种选择是尝试使用Bittorrent Sync(http://www.bittorrent.com/sync)。我已经使用它在WAN上在我们家庭成员之间同步家庭照片和视频,但是没有理由它不适用于本地网络。它使用对等连接,因此数据不会像尝试使用保管箱那样通过服务器传输(不是我认为您有20TB的保管箱空间或想要等待那么长时间才能上传那么多文件)数据!)
它还在多个平台上受支持,因此比rsync和tar具有更大的灵活性。