Google为什么要从我的网站下载二进制文件并使用带宽？

自2014年8月中旬以来，几台Google服务器大约每周一次在我的网站上下载所有（很大）二进制文件。所有IP均显示为Google拥有，外观如下：google-proxy-66-249-88-199.google.com。这些是GET请求，它们极大地影响了我的服务器流量。

在此之前，我没有看到来自这些Google代理IP的任何流量，因此这似乎是相对较新的东西。我确实看到了来自其他Google IP的各种流量，所有这些仅是googlebot和HEAD请求。

我不会担心这一点，除了Google大约每星期都会下载所有这些文件。使用的带宽开始变得过多。

我推测，由于其中许多文件都是Windows可执行文件，因此Google可能正在下载它们以执行恶意软件扫描。即使是这样，这真的需要每周进行一次吗？

到目前为止，11月份来自Google代理IP的流量示例：

google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB

更新＃1：我忘了提到有问题的文件已经在网站的robots.txt文件中。为了使robots.txt配置正常运行，我还使用了Google网站站长工具中的robots.txt测试仪，该测试仪表明，所有Google机器人的文件都被禁止，但有一个例外：Adsbot-Google。我不知道那是什么。并且我在Google中搜索了一些文件，但它们没有出现在搜索结果中。

更新＃2：示例：11月17日太平洋标准时间（PST）在5:12 am和5:18 am之间，大约有六个IP（全部为google-proxy）对所有有问题的二进制文件执行GET，总共27个。在11月4日太平洋标准时间下午2:09和下午2:15之间，这些相同的IP基本完成了相同的操作。

更新＃3：到目前为止，似乎很明显，尽管这些是有效的Google IP，但它们是Google代理服务的一部分，而不是Google网络抓取系统的一部分。因为这些是代理地址，所以无法确定GET请求的实际来源，或者它们是否来自一个地方或多个地方。基于GET的零星性质，似乎并没有发生任何有害的事情；可能只是某个人决定在使用Google的代理服务时下载所有二进制文件。不幸的是，该服务似乎完全没有文档记录，这没有帮助。从站点管理员的角度来看，代理非常令人讨厌。我不想阻止它们，因为它们有合法用途。但是它们也可能被滥用。

google proxy bandwidth

— 开机13
source

好问题。我投票赞成！您肯定要使用robots.txt阻止它们。为什么Google下载可执行文件不属于我。您的理论似乎是一个很好的理论，但由于某种原因，由于某种原因我不确定。似乎很奇怪。尽管我的列表中没有google-proxy-66-102-6-104.google.com，但这些似乎确实是有效的Googlebot IP地址。

— closetnoc

我忘了提到有问题的文件已经在网站的robots.txt文件中。请参阅上面的更新＃1。

— boot13 2014年

你让我困惑。我现在有承包商期望，所以我必须考虑一下。Google一直在用域名和IP地址分配做一些有趣的事情，并且与各种Google服务（包括托管服务和其他服务）存在一些重叠，在这些服务中，人们的漫游器可以出现在Google IP地址空间上，但是我没有看到它们使用Googlebot IP地址空间。我希望Google为各个搜索过程分配清晰的空间，而不会出现重叠或重叠很少，以便安全系统可以正确地信任这些IP地址。

— closetnoc

我对此问题进行了一些研究，发现了一些有趣的方法，例如：

1.它是假的爬虫吗？-> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c

用户结论：

这些“抓取工具”不是抓取工具，而是Google搜索引擎中使用的实时网站预览的一部分。

我已经尝试过，以在预览中显示我的一个网站，是的，它收到了一条被阻止的IP消息。

如果您希望用户能够查看您的网站的预览，则必须接受这些“爬网程序”。

就像其他人所说的那样：“该URL的根域是google.com，因此不容易被欺骗”。

结论：您可以信任这些漫游器或爬虫，它用于在Google搜索中显示预览。

我们知道实时预览未下载您的文件，因此让我们跳到问题2。

2.它是Google服务的一部分吗？-> 该Google代理是否是伪造的抓取工具：google-proxy-66-249-81-131.google.com？

结论：

我认为，有些人正在使用Google服务（例如Google翻译，Google移动等）来访问（被阻止的）网站（在学校等），还用于DOS攻击和类似活动。

我对此的猜测与上述相同。有人正在尝试使用Google服务来访问您的文件，例如翻译器。

如您所说，如果robots.txt已阻止文件，则只能是手动请求。

编辑：要广泛处理OP注释：

搜寻器可以忽略robots.txt吗？是。这是我不认为Google会列出的列表，这意味着它可能是使用Google代理的其他机器人。

会是个坏机器人吗？是的，为此，我建议：

.htaccess禁止：

 RewriteCond %{REMOTE_HOST} ^209.133.111..* [OR]
 RewriteCond %{HTTP_USER_AGENT} Spider [OR]
 RewriteCond %{HTTP_USER_AGENT} Slurp
 RewriteRule ^.*$ X.html [L]

此代码可以禁止IP或用户代理。

或使用此处提供的蜘蛛陷阱

我认为这是手动要求。

— 努诺巴蒂斯塔
source

我也看到了这些答案，但是它们似乎并没有解决我的特定问题。您可能是正确的，因为Google Proxy被滥用，在这种情况下，我很可能会完全阻止它，这有点of脚。我对robots.txt的理解是，搜寻器软件可以选择忽略它。友好的机器人应该尊重它，大多数人都会这样做，但是（我猜）代理是不同的。

— 2014年

@ boot13不过要小心。这些是有效的Googlebot IP地址。因此，如果确实阻止了它，则仅对这些文件阻止它。假设您使用的是Apache，那么您应该可以使用.htaccess做到这一点。但这可能会导致其他问题，因此请确保您注意使用Google网站站长工具来发送消息。

— closetnoc

@ boot13我已经更新了答案。您能否检查访问是在同一天/小时进行的还是随机的？

— nunorbatista 2014年

@nunorbatista：他们似乎是随机的。我已将问题更新了一段时间。

— 2014年

@nunorbatista：请参阅上面的更新＃3。它不是Googlebot或任何其他搜寻器，而是Google的代理服务。它与Google的实时网站预览无关。似乎一个或多个人刚刚通过Google Proxy下载了二进制文件，也许是为了避开本地限制或限制。蜘蛛陷阱的建议不太可能有所帮助，因为流量显然不是机器人。我想阻止Google代理IP访问包含二进制文件的文件夹；我将尝试使用htaccess代码，但是下载程序当然可以始终切换到另一个代理，因此可能毫无意义。

— 2014年