Nginx代理Amazon S3资源


71

我正在执行一些WPO任务,因此PageSpeed建议我利用浏览器缓存。我已经为Nginx服务器中的一些静态文件成功地对其进行了改进,但是存储在Amazon S3服务器中的图像文件仍然丢失。

我已经阅读了有关在S3中更新每个文件以包括一些标头元标记(Expires和Cache-Control)的方法。我认为这不是一个好方法。我有成千上万个文件,所以这对我来说不可行。

我认为最方便的方法是将Nginx 1.6.0服务器配置为代理S3文件。我已经读过有关此内容的信息,但是我对服务器配置一点都不了解,因此我从这些站点上获得了一些示例:https : //gist.github.com/benjaminbarbe/1961db5ffbaad57eff12

我在我的nginx配置文件的服务器块内添加了此位置代码:

#inside server block
location /mybucket.s3.amazonaws.com/ {


        proxy_http_version     1.1;
        proxy_set_header       Host mybucket.s3.amazonaws.com;
        proxy_set_header       Authorization '';
        proxy_hide_header      x-amz-id-2;
        proxy_hide_header      x-amz-request-id;
        proxy_hide_header      Set-Cookie;
        proxy_ignore_headers   "Set-Cookie";
        proxy_buffering        off;
        proxy_intercept_errors on;      
        proxy_pass             http://mybucket.s3.amazonaws.com;
      }

当然,这对我不起作用。我的请求中没有标题。因此,首先我认为请求与位置不匹配。

Accept-Ranges:bytes
Content-Length:90810
Content-Type:image/jpeg
Date:Fri, 23 Jun 2017 04:53:56 GMT
ETag:"4fd0be549fbcaf9b47c18a15146cdf16"
Last-Modified:Tue, 09 Jun 2015 09:47:13 GMT
Server:AmazonS3
x-amz-id-2:cKsq1qRra74DqVsTewh3P3sgzVUoPR8aAT2NFCuwA+JjCdDZfk7/7x/C0WPjBa51GEb4C8LyAIc=
x-amz-request-id:94EADB4EDD3DE1C1

也许可以通过脚本(例如chriskief.com/2014/07/13/setting-s3-cache-metadata)修改现有对象的Cache-Control 。
jarmod

我在Nginx配置中看不到任何添加任何标题的内容。此外,这些proxy_hide_header指令将被忽略,并且默认情况下nginx应该已经scrubbed Server:。那么...您确定此请求实际上是由Nginx处理的吗?
Michael-sqlbot

@ Michael-sqlbot不。我对服务器配置几乎一无所知。任何帮助表示赞赏。
罗伯

你是对的。我认为该请求未由Nginx处理。这是一个资源请求示例:yanpy.dev.s3.amazonaws.com/img/blog / ...如何设置位置?@ Michael-sqlbot
Rober

在不知道您使用什么框架/环境的情况下,很难猜测如何配置基本URL。
Michael-sqlbot

Answers:


150

通过Nginx代理S3文件的方法很有意义。它解决了许多问题,并具有其他优势,例如屏蔽URL,代理缓存,通过卸载SSL / TLS加快传输速度。您几乎正确地做到了,让我展示一下如何使它变得完美。

对于示例查询,我使用S3存储桶和原始问题的公共注释中提到的图像URL 。

我们首先检查Amazon S3文件的标题

curl -I http://yanpy.dev.s3.amazonaws.com/img/blog/sailing-routes-around-croatia-central-dalmatia-islands/yachts-anchored-paradise-cove-croatia-3.jpg

HTTP/1.1 200 OK
Date: Sun, 25 Jun 2017 17:49:10 GMT
Last-Modified: Wed, 21 Jun 2017 07:42:31 GMT
ETag: "37a907fc5dd7cfd0c428af78f09e95a9"
Expires: Fri, 21 Jul 2018 07:41:49 UTC
Accept-Ranges: bytes
Content-Type: binary/octet-stream
Content-Length: 378843
Server: AmazonS3

我们可以看到缺少Cache-Control,但已经配置了条件GET标头。当我们重用E-Tag / Last-Modified(这是浏览器的客户端缓存的工作方式)时,我们会获得HTTP 304和空的Content-Length。客户端(在我们的例子中为curl)的解释是查询资源,说不需要数据传输,除非在服务器上修改了文件:

curl -I http://yanpy.dev.s3.amazonaws.com/img/blog/sailing-routes-around-croatia-central-dalmatia-islands/yachts-anchored-paradise-cove-croatia-3.jpg 
--header "If-None-Match: 37a907fc5dd7cfd0c428af78f09e95a9"

HTTP/1.1 304 Not Modified
Date: Sun, 25 Jun 2017 17:53:33 GMT
Last-Modified: Wed, 21 Jun 2017 07:42:31 GMT
ETag: "37a907fc5dd7cfd0c428af78f09e95a9"
Expires: Fri, 21 Jul 2018 07:41:49 UTC
Server: AmazonS3

curl -I http://yanpy.dev.s3.amazonaws.com/img/blog/sailing-routes-around-croatia-central-dalmatia-islands/yachts-anchored-paradise-cove-croatia-3.jpg 
--header "If-Modified-Since: Wed, 21 Jun 2017 07:42:31 GMT"

HTTP/1.1 304 Not Modified
Date: Sun, 25 Jun 2017 18:17:34 GMT
Last-Modified: Wed, 21 Jun 2017 07:42:31 GMT
ETag: "37a907fc5dd7cfd0c428af78f09e95a9"
Expires: Fri, 21 Jul 2018 07:41:49 UTC
Server: AmazonS3

“建议使用PageSpeed来利用浏览器缓存”,这意味着缺少Cache = control。Nginx作为S3文件的代理,不仅解决了缺少标头的问题,而且还使用Nginx代理缓存节省了流量。

我使用macOS,但Nginx配置在Linux上完全相同,无需修改。一步步:

1.安装Nginx

brew update && brew install nginx

2.将Nginx设置为代理S3存储桶,请参见下面的配置

3.通过Nginx请求文件。请查看服务器标头,我们现在看到的是Nginx而不是Amazon S3:

curl -I http://localhost:8080/s3/img/blog/sailing-routes-around-croatia-central-dalmatia-islands/yachts-anchored-paradise-cove-croatia-3.jpg

HTTP/1.1 200 OK
Server: nginx/1.12.0
Date: Sun, 25 Jun 2017 18:30:26 GMT
Content-Type: binary/octet-stream
Content-Length: 378843
Connection: keep-alive
Last-Modified: Wed, 21 Jun 2017 07:42:31 GMT
ETag: "37a907fc5dd7cfd0c428af78f09e95a9"
Expires: Fri, 21 Jul 2018 07:41:49 UTC
Accept-Ranges: bytes
Cache-Control: max-age=31536000

通过Nginx请求文件

4.使用带有条件GET的Nginx代理请求文件:

curl -I http://localhost:8080/s3/img/blog/sailing-routes-around-croatia-central-dalmatia-islands/yachts-anchored-paradise-cove-croatia-3.jpg 
--header "If-None-Match: 37a907fc5dd7cfd0c428af78f09e95a9"

HTTP/1.1 304 Not Modified
Server: nginx/1.12.0
Date: Sun, 25 Jun 2017 18:32:16 GMT
Connection: keep-alive
Last-Modified: Wed, 21 Jun 2017 07:42:31 GMT
ETag: "37a907fc5dd7cfd0c428af78f09e95a9"
Expires: Fri, 21 Jul 2018 07:41:49 UTC
Cache-Control: max-age=31536000

使用带有条件GET的Nginx代理请求文件

5,使用Nginx代理缓存请求文件,请查看X-Cache-Status标头,其值为MISS直到第一次请求后缓存预热

curl -I http://localhost:8080/s3_cached/img/blog/sailing-routes-around-croatia-central-dalmatia-islands/yachts-anchored-paradise-cove-croatia-3.jpg
HTTP/1.1 200 OK
Server: nginx/1.12.0
Date: Sun, 25 Jun 2017 18:40:45 GMT
Content-Type: binary/octet-stream
Content-Length: 378843
Connection: keep-alive
Last-Modified: Wed, 21 Jun 2017 07:42:31 GMT
ETag: "37a907fc5dd7cfd0c428af78f09e95a9"
Expires: Fri, 21 Jul 2018 07:41:49 UTC
Cache-Control: max-age=31536000
X-Cache-Status: HIT
Accept-Ranges: bytes

使用Nginx代理缓存请求文件

根据Nginx官方文档,我为Nginx S3配置提供了优化的缓存设置,该设置支持以下选项:

  • proxy_cache_revalidate指示NGINX在刷新来自原始服务器的内容时​​使用条件GET请求
  • proxy_cache_use_stale指令的update参数指示NGINX在客户端从原始服务器下载更新时向客户请求项目时传递过时的内容,而不是将重复的请求转发到服务器
  • 在启用proxy_cache_lock的情况下,如果多个客户端请求的文件不是高速缓存中的当前文件(MISS),则仅允许这些请求中的第一个到达原始服务器

Nginx配置

worker_processes  1;
daemon off;

error_log  /dev/stdout info;
pid        /usr/local/var/nginx/nginx.pid;


events {
  worker_connections  1024;
}


http {
  default_type       text/html;
  access_log         /dev/stdout;
  sendfile           on;
  keepalive_timeout  65;

  proxy_cache_path   /tmp/ levels=1:2 keys_zone=s3_cache:10m max_size=500m
                     inactive=60m use_temp_path=off;

  server {
    listen 8080;

    location /s3/ {
      proxy_http_version     1.1;
      proxy_set_header       Connection "";
      proxy_set_header       Authorization '';
      proxy_set_header       Host yanpy.dev.s3.amazonaws.com;
      proxy_hide_header      x-amz-id-2;
      proxy_hide_header      x-amz-request-id;
      proxy_hide_header      x-amz-meta-server-side-encryption;
      proxy_hide_header      x-amz-server-side-encryption;
      proxy_hide_header      Set-Cookie;
      proxy_ignore_headers   Set-Cookie;
      proxy_intercept_errors on;
      add_header             Cache-Control max-age=31536000;
      proxy_pass             http://yanpy.dev.s3.amazonaws.com/;
    }

    location /s3_cached/ {
      proxy_cache            s3_cache;
      proxy_http_version     1.1;
      proxy_set_header       Connection "";
      proxy_set_header       Authorization '';
      proxy_set_header       Host yanpy.dev.s3.amazonaws.com;
      proxy_hide_header      x-amz-id-2;
      proxy_hide_header      x-amz-request-id;
      proxy_hide_header      x-amz-meta-server-side-encryption;
      proxy_hide_header      x-amz-server-side-encryption;
      proxy_hide_header      Set-Cookie;
      proxy_ignore_headers   Set-Cookie;
      proxy_cache_revalidate on;
      proxy_intercept_errors on;
      proxy_cache_use_stale  error timeout updating http_500 http_502 http_503 http_504;
      proxy_cache_lock       on;
      proxy_cache_valid      200 304 60m;
      add_header             Cache-Control max-age=31536000;
      add_header             X-Cache-Status $upstream_cache_status;
      proxy_pass             http://yanpy.dev.s3.amazonaws.com/;
    }

  }
}

2
亲爱的阿纳托利,谢谢您的工作。我正在尝试使用它,但是当我添加proxy_cache_valid 200 60m;希望它对某人有帮助时,它仍会产生“ MISS”缓存。
Oleg Mykolaichenko

上面的配置应该可以正常工作,不确定我是否理解问题对任何人的帮助,让我们解决问题:)。可以附加curl命令和Nginx配置,以便重现吗?
Anatoly

2
我直接复制了您添加的代码块。但是,当我将proxy_cache_valid 200 60m;其添加到HIT时。我相信这可能与NginX版本有关。我的是1.6.0谢谢@Anatoly和@OlegMykolaichenko!
Yiğit居莱尔

1
使用proxy_cache_valid指令更新
Anatoly

1
@Anatoly,这是我在该网站上看到的最令人敬畏的回复:D非常感谢!
Ommadawn

5

如果没有Nginx编译模块的详细信息,我们可以说两种向所有文件添加Expires和Cache-Control标头的方法。

Nginx S3代理

这就是您要问的问题-使用Nginx在S3文件上添加过期的缓存控制标头。

Nginx支持Nginx S3代理和更改/添加到期所需的set-misc-nginx-module,即时进行缓存控制。这是从编译到使用的标准完整指南对于Ubuntu服务器的nginx-extras来说很好的指南。这是WordPress示例的完整指南

还有更多的S3模块用于处理其他事情。如果没有这些模块,Nginx将无法理解,并且配置测试(nginx -t)将以错误的配置通过测试。set-misc-nginx-module是您需要的最低要求。您想要的关于此Github要点的更好示例

由于并非全部都用于编译,并且设置确实有点困难,因此我也正在编写​​一种方法来为一个Amazon S3存储桶中的所有文件设置Expires和Cache-Control标头。

Amazon S3存储桶到期和缓存控制标头

此外,还可以使用脚本或命令行为一个AWS S3存储桶中的所有对象设置Expires和Cache-Control标头。Github上有许多这样的免费库和脚本,例如本库,bucket ExplorerAmazon的工具Amazon的this docthis doc。该cp CLI工具的命令将如下所示:

aws s3 cp s3://mybucket/ s3://mybucket/ --recursive --metadata-directive REPLACE \
--expires 2027-09-01T00:00:00Z --acl public-read --cache-control max-age=2000000,public

-3

从架构审查来看,您尝试做的是错误的方法:

  • 大概已将Amazon S3优化为高可用性缓存。通过在其之上引入手动滚动的代理层,您只是在引入不必要的额外延迟和巨大的故障点,而且还失去了S3带来的所有好处。

  • 您对文件数的性能分析不正确。如果您在S3上有成千上万个文件,则正确的解决方案是编写一次性脚本来更改S3上的必需属性,而不是手动滚动您不完全了解的代理机制,该机制将被执行(ad nauseam)多次。进行代理可能是一个创可贴,实际上,可能会降低性能而不是提高性能(即使您需要使用无状态自动工具也可以告诉您)。更不用说这也将不必要地消耗资源,并且可能导致实际的性能问题并引发混乱。


就是说,如果您仍然想通过添加标头进行代理,那么使用nginx的正确方法是使用expires指令。

例如,您可以将指令放在适当的位置expires max;之前或之后proxy_pass

expires指令Cache-Control也会自动为您设置正确的标头。但是如果add_header您希望手动添加任何自定义响应头,也可以使用伪指令。


11
FWIW,S3肯定是高度可用的,但它并不意味着要作为缓存,并且在大批量使用时相对昂贵。这就是Amazon自己为CloudFront提供S3支持的原因。如果打算提供大量服务,则不应直接在S3之外进行。因此,放置某种形式的缓存并不是一个坏主意。
约书亚·德瓦尔德
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.