我注意到Google网站站长工具报告了我网站上很多被阻止的资源。现在,所有“被阻止的资源”都是我从Cloudfront CDN提供的.css,.js和图像(.jpg,.png)。
我花了很多时间进行测试,并试图找出Google为什么不抓取这些文件并报告“资源阻止”状态的原因。
目前,我从多个主机名提供这些文件,例如:cdn1.example.com,cdn2.example.com,...
cdn1,cdn2和其他名称是CCloud的Cloudfront发行名称。
测试:我尝试直接使用cloudfront发行版(无CNAME),但问题仍然存在。
目前,我的robots.txt如下所示:
# Google AdSense
User-agent: Mediapartners-Google
Disallow:
#Google images
User-agent: Googlebot-Image
Disallow: /
User-agent: *
Disallow: /homepage
Disallow: /index.php*
Disallow: /uncategorized*
Disallow: /tag/*
Disallow: *feed
Disallow: */page/*
Disallow: *author*
Disallow: *archive*
Disallow: */category*
Disallow: *tag=*
Disallow: /test*
Allow: /
以及在一个示例页面中阻止的文件示例:
cdn1.example.com/wp-content/plugins/wp-forecast/wp-forecast-default.css
cdn9.example.com/wp-content/plugins/bwp-minify/min/?f=wp-content/themes/magazine/css/font-awesome.min.css,wp-content/themes/magazine/css/response .css
cdn5.example.com/wp-content/themes/magazine/images/nobg.png
cdn6.example.com/wp-content/plugins/floating-social-bar/images/fsb-sprite.png
cdn5.example.com/wp-content/uploads/2013/11/Design-Hotel-3-80x80.jpg
cdn5.example.com/wp-content/uploads/2013/11/Marta-Hotel-7-270x225.jpg
我什至尝试允许robots.txt中的所有内容,但我总是得到相同的结果。
我也一直在仔细查看Amazon中的CloudFront设置,没有发现任何可能相关的信息(我从未使用过,也从未使用过以下选项:“限制查看者访问权限(使用签名URL或签名Cookie)”。
现在,我已经花了很多时间研究这个问题,没有更多的想法了。
有人可以想到导致Googlebot被阻止对Amazon CloudFront中托管的文件进行爬网的原因吗?
*
在URL“ prefix”的末尾添加。/test*
与相同/test
。