是否可以使用s3cmd将所有文件从一个S3存储桶复制到另一个存储桶?


77

我对s3cmd感到非常满意,但是有一个问题:如何将所有文件从一个S3存储桶复制到另一个?可能吗?

编辑:我发现了一种使用带boto的Python在存储桶之间复制文件的方法:

from boto.s3.connection import S3Connection

def copyBucket(srcBucketName, dstBucketName, maxKeys = 100):
  conn = S3Connection(awsAccessKey, awsSecretKey)

  srcBucket = conn.get_bucket(srcBucketName);
  dstBucket = conn.get_bucket(dstBucketName);

  resultMarker = ''
  while True:
    keys = srcBucket.get_all_keys(max_keys = maxKeys, marker = resultMarker)

    for k in keys:
      print 'Copying ' + k.key + ' from ' + srcBucketName + ' to ' + dstBucketName

      t0 = time.clock()
      dstBucket.copy_key(k.key, srcBucketName, k.key)
      print time.clock() - t0, ' seconds'

    if len(keys) < maxKeys:
      print 'Done'
      break

    resultMarker = keys[maxKeys - 1].key

同步几乎和复制一样简单。ETag,大小和最后修改字段可用于密钥。

也许这对其他人也有帮助。


3
嘿,您能编辑成答案并接受吗?这是一个非常有用的提示!
Hamish 2012年

1
您使用“ get_all_keys”而不是“ list”的任何原因是什么?
Bill Rosmus

Answers:


90

s3cmd sync s3://from/this/bucket/ s3://to/this/bucket/

有关可用选项,请使用: $s3cmd --help


1
很棒的建议。爱那个s3cmd。斜杠可能很重要,因此s3cmd sync s3://sample_bucket/ s3://staging_bucket/对我来说效果很好。
Charles Forcey

我也不喜欢这种行为。审阅者会尽量减少审阅所花费的时间,因此您的更改不仅需要没问题,而且还需要看起来很合理。如果您的更改被拒绝,但是您非常非常确实地需要这样做,那么我不认为不良行为会再次尝试-也许与其他审阅者一起,您会获得更多的运气。
peterh-恢复莫妮卡2014年

12
您也可以使用aws cli来执行此操作。aws s3 sync s3:// from / s3:// to /
Bobo

2
如果每个存储桶都有一组不同的访问密钥ID和密钥(不同的AWS账户)怎么办?
集体讨论

@brainstorm,您可能想要创建一个在两个存储桶上都具有访问权限的新AWS用户,以便将s3cmd用于特定用例。
amit_saxena 2015年


29

在我写这篇文章时,投票最多的答案是这个:

s3cmd sync s3://from/this/bucket s3://to/this/bucket

这是一个有用的答案。但是有时候同步并不是您所需要的(它会删除文件等)。我花了很长时间才弄清楚这种非脚本替代方法,可以在存储桶之间简单地复制多个文件。(好的,在下面显示的情况下,它不在存储桶之间。它在非真正的文件夹之间,但是在存储桶之间同样有效。)

# Slightly verbose, slightly unintuitive, very useful:
s3cmd cp --recursive --exclude=* --include=file_prefix* s3://semarchy-inc/source1/ s3://semarchy-inc/target/

上面命令的说明:

  • –recursive
    在我看来,我的要求不是递归的。我只是想要多个文件。但是在这种情况下,递归只是告诉s3cmd cp处理多个文件。大。
  • –exclude
    这是思考问题的一种奇怪方法。首先以递归方式选择所有文件。接下来,排除所有文件。等一下
  • –include
    现在我们在谈论。指明要包括的文件前缀(或后缀或任何模式)。
    s3://sourceBucket/ s3://targetBucket/
    这部分足够直观。尽管从技术上讲,它似乎违反了s3cmd帮助中记录的示例,该示例指示必须指定源对象:
    s3cmd cp s3://BUCKET1/OBJECT1 s3://BUCKET2[/OBJECT2]

为了使这个好的答案更好,请此处将您的深入博客文章的“启发”部分复制到您的答案中。做得好!
伊恩·塞缪尔·麦克莱恩

您无法通过以下方式实现相同的目标s3cmd sync --max-delete=0 s3://from s3://to吗?
schmijos 2015年

嗯...我没找到那个选择。因此,我无法确认它是否有效。但是我不明白为什么不会。实际上,现在我看到的--no-delete-removed似乎更重要了。
mdahlman 2015年

9

您还可以使用Web界面执行此操作:

  1. 转到Web界面中的源存储桶。
  2. 标记要复制的文件(使用Shift和鼠标单击标记多个)。
  3. 按操作->复制。
  4. 转到目标存储桶。
  5. 按操作->粘贴。

而已。



3

实际上是可能的。这为我工作:

import boto


AWS_ACCESS_KEY = 'Your access key'
AWS_SECRET_KEY = 'Your secret key'

conn = boto.s3.connection.S3Connection(AWS_ACCESS_KEY, AWS_SECRET_KEY)
bucket = boto.s3.bucket.Bucket(conn, SRC_BUCKET_NAME)

for item in bucket:
    # Note: here you can put also a path inside the DEST_BUCKET_NAME,
    # if you want your item to be stored inside a folder, like this:
    # bucket.copy(DEST_BUCKET_NAME, '%s/%s' % (folder_name, item.key))
    bucket.copy(DEST_BUCKET_NAME, item.key)

复制方法适用于boto.s3.key对象,请参见此处。但这是直接复制/移动文件的好方法,而不必担心'subfolders'的细节。
GeoSharp 2015年

2

谢谢-我使用的是经过稍微修改的版本,在该版本中,我仅复制不存在或大小不同的文件,并检查目标文件中的密钥是否存在。我发现可以更快地准备测试环境:

def botoSyncPath(path):
    """
       Sync keys in specified path from source bucket to target bucket.
    """
    try:
        conn = S3Connection(AWS_ACCESS_KEY_ID, AWS_SECRET_ACCESS_KEY)
        srcBucket = conn.get_bucket(AWS_SRC_BUCKET)
        destBucket = conn.get_bucket(AWS_DEST_BUCKET)
        for key in srcBucket.list(path):
            destKey = destBucket.get_key(key.name)
            if not destKey or destKey.size != key.size:
                key.copy(AWS_DEST_BUCKET, key.name)

        for key in destBucket.list(path):
            srcKey = srcBucket.get_key(key.name)
            if not srcKey:
                key.delete()
    except:
        return False
    return True

2

我写了一个脚本来备份S3存储桶:https : //github.com/roseperrone/aws-backup-rake-task

#!/usr/bin/env python
from boto.s3.connection import S3Connection
import re
import datetime
import sys
import time

def main():
    s3_ID = sys.argv[1]
    s3_key = sys.argv[2]
    src_bucket_name = sys.argv[3]
    num_backup_buckets = sys.argv[4]
    connection = S3Connection(s3_ID, s3_key)
    delete_oldest_backup_buckets(connection, num_backup_buckets)
    backup(connection, src_bucket_name)

def delete_oldest_backup_buckets(connection, num_backup_buckets):
    """Deletes the oldest backup buckets such that only the newest NUM_BACKUP_BUCKETS - 1 buckets remain."""
    buckets = connection.get_all_buckets() # returns a list of bucket objects
    num_buckets = len(buckets)

    backup_bucket_names = []
    for bucket in buckets:
        if (re.search('backup-' + r'\d{4}-\d{2}-\d{2}' , bucket.name)):
            backup_bucket_names.append(bucket.name)

    backup_bucket_names.sort(key=lambda x: datetime.datetime.strptime(x[len('backup-'):17], '%Y-%m-%d').date())

    # The buckets are sorted latest to earliest, so we want to keep the last NUM_BACKUP_BUCKETS - 1
    delete = len(backup_bucket_names) - (int(num_backup_buckets) - 1)
    if delete <= 0:
        return

    for i in range(0, delete):
        print 'Deleting the backup bucket, ' + backup_bucket_names[i]
        connection.delete_bucket(backup_bucket_names[i])

def backup(connection, src_bucket_name):
    now = datetime.datetime.now()
    # the month and day must be zero-filled
    new_backup_bucket_name = 'backup-' + str('%02d' % now.year) + '-' + str('%02d' % now.month) + '-' + str(now.day);
    print "Creating new bucket " + new_backup_bucket_name
    new_backup_bucket = connection.create_bucket(new_backup_bucket_name)
    copy_bucket(src_bucket_name, new_backup_bucket_name, connection)


def copy_bucket(src_bucket_name, dst_bucket_name, connection, maximum_keys = 100):
    src_bucket = connection.get_bucket(src_bucket_name);
    dst_bucket = connection.get_bucket(dst_bucket_name);

    result_marker = ''
    while True:
        keys = src_bucket.get_all_keys(max_keys = maximum_keys, marker = result_marker)

        for k in keys:
            print 'Copying ' + k.key + ' from ' + src_bucket_name + ' to ' + dst_bucket_name

            t0 = time.clock()
            dst_bucket.copy_key(k.key, src_bucket_name, k.key)
            print time.clock() - t0, ' seconds'

        if len(keys) < maximum_keys:
            print 'Done backing up.'
            break

        result_marker = keys[maximum_keys - 1].key

if  __name__ =='__main__':main()

我在rake任务(用于Rails应用程序)中使用以下命令:

desc "Back up a file onto S3"
task :backup do
     S3ID = "*****"
     S3KEY = "*****"
     SRCBUCKET = "primary-mzgd"
     NUM_BACKUP_BUCKETS = 2

     Dir.chdir("#{Rails.root}/lib/tasks")
     system "./do_backup.py #{S3ID} #{S3KEY} #{SRCBUCKET} #{NUM_BACKUP_BUCKETS}"
end

2

mdahlman的代码对我不起作用,但是此命令将bucket1中的所有文件复制到bucket 2中的新文件夹(命令还会创建此新文件夹)。

cp --recursive --include=file_prefix* s3://bucket1/ s3://bucket2/new_folder_name/

此命令不起作用,cp之前应该执行什么操作?aw3 s3cmd或其他任何内容
-NEOmen

1

s3cmd不会仅带有前缀或通配符的cp,但是您可以使用“ s3cmd ls sourceBucket”编写行为脚本,然后awk提取对象名称。然后,使用“ s3cmd cp sourceBucket /名称destBucket”复制列表中的每个对象名称。

我在Windows的DOS框中使用这些批处理文件:

s3list.bat

s3cmd ls %1 | gawk "/s3/{ print \"\\"\"\"substr($0,index($0,\"s3://\"))\"\\"\"\"; }"

s3copy.bat

@for /F "delims=" %%s in ('s3list %1') do @s3cmd cp %%s %2

请注意,此方法非常慢(就像其他解决方案同时执行一个对象一样),但是如果您没有太多要复制的项目,它确实可以工作。
约书亚·理查森

这个答案让我迷惑了很长时间……但是实际上,如果您使用正确(有点不直观)的选项集,则s3cmd CAN cp会带有通配符。我发布了详细答案。
mdahlman 2013年

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.