Google为什么要从我的网站下载二进制文件并使用带宽?


9

自2014年8月中旬以来,几台Google服务器大约每周一次在我的网站上下载所有(很大)二进制文件。所有IP均显示为Google拥有,外观如下:google-proxy-66-249-88-199.google.com。这些是GET请求,它们极大地影响了我的服务器流量。

在此之前,我没有看到来自这些Google代理IP的任何流量,因此这似乎是相对较新的东西。我确实看到了来自其他Google IP的各种流量,所有这些仅是googlebot和HEAD请求。

我不会担心这一点,除了Google大约每星期都会下载所有这些文件。使用的带宽开始变得过多。

我推测,由于其中许多文件都是Windows可执行文件,因此Google可能正在下载它们以执行恶意软件扫描。即使是这样,这真的需要每周进行一次吗?

到目前为止,11月份来自Google代理IP的流量示例:

google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB

更新#1:我忘了提到有问题的文件已经在网站的robots.txt文件中。为了使robots.txt配置正常运行,我还使用了Google网站站长工具中的robots.txt测试仪,该测试仪表明,所有Google机器人的文件都被禁止,但有一个例外:Adsbot-Google。我不知道那是什么。并且我在Google中搜索了一些文件,但它们没有出现在搜索结果中。

更新#2:示例:11月17日太平洋标准时间(PST)在5:12 am和5:18 am之间,大约有六个IP(全部为google-proxy)对所有有问题的二进制文件执行GET,总共27个。在11月4日太平洋标准时间下午2:09和下午2:15之间,这些相同的IP基本完成了相同的操作。

更新#3:到目前为止,似乎很明显,尽管这些是有效的Google IP,但它们是Google代理服务的一部分,而不是Google网络抓取系统的一部分。因为这些是代理地址,所以无法确定GET请求的实际来源,或者它们是否来自一个地方或多个地方。基于GET的零星性质,似乎并没有发生任何有害的事情;可能只是某个人决定在使用Google的代理服务时下载所有二进制文件。不幸的是,该服务似乎完全没有文档记录,这没有帮助。从站点管理员的角度来看,代理非常令人讨厌。我不想阻止它们,因为它们有合法用途。但是它们也可能被滥用。


好问题。我投票赞成!您肯定要使用robots.txt阻止它们。为什么Google下载可执行文件不属于我。您的理论似乎是一个很好的理论,但由于某种原因,由于某种原因我不确定。似乎很奇怪。尽管我的列表中没有google-proxy-66-102-6-104.google.com,但这些似乎确实是有效的Googlebot IP地址。
closetnoc

我忘了提到有问题的文件已经在网站的robots.txt文件中。请参阅上面的更新#1。
boot13 2014年

你让我困惑。我现在有承包商期望,所以我必须考虑一下。Google一直在用域名和IP地址分配做一些有趣的事情,并且与各种Google服务(包括托管服务和其他服务)存在一些重叠,在这些服务中,人们的漫游器可以出现在Google IP地址空间上,但是我没有看到它们使用Googlebot IP地址空间。我希望Google为各个搜索过程分配清晰的空间,而不会出现重叠或重叠很少,以便安全系统可以正确地信任这些IP地址。
closetnoc

Answers:


3

我对此问题进行了一些研究,发现了一些有趣的方法,例如:

1.它是假的爬虫吗?-> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c

用户结论:

这些“抓取工具”不是抓取工具,而是Google搜索引擎中使用的实时网站预览的一部分。

我已经尝试过,以在预览中显示我的一个网站,是的,它收到了一条被阻止的IP消息。

如果您希望用户能够查看您的网站的预览,则必须接受这些“爬网程序”。

就像其他人所说的那样:“该URL的根域是google.com,因此不容易被欺骗”。

结论:您可以信任这些漫游器或爬虫,它用于在Google搜索中显示预览。

我们知道实时预览未下载您的文件,因此让我们跳到问题2。

2.它是Google服务的一部分吗?-> 该Google代理是否是伪造的抓取工具:google-proxy-66-249-81-131.google.com?

结论:

我认为,有些人正在使用Google服务(例如Google翻译,Google移动等)来访问(被阻止的)网站(在学校等),还用于DOS攻击和类似活动。

我对此的猜测与上述相同。有人正在尝试使用Google服务来访问您的文件,例如翻译器。

如您所说,如果robots.txt已阻止文件,则只能是手动请求。

编辑:要广泛处理OP注释:

搜寻器可以忽略robots.txt吗?是。这是 我不认为Google会列出的列表,这意味着它可能是使用Google代理的其他机器人。

会是个坏机器人吗?是的,为此,我建议:

.htaccess禁止:

 RewriteCond %{REMOTE_HOST} ^209.133.111..* [OR]
 RewriteCond %{HTTP_USER_AGENT} Spider [OR]
 RewriteCond %{HTTP_USER_AGENT} Slurp
 RewriteRule ^.*$ X.html [L]

此代码可以禁止IP或用户代理。

或使用此处提供的蜘蛛陷阱

我认为这是手动要求。


我也看到了这些答案,但是它们似乎并没有解决我的特定问题。您可能是正确的,因为Google Proxy被滥用,在这种情况下,我很可能会完全阻止它,这有点of脚。我对robots.txt的理解是,搜寻器软件可以选择忽略它。友好的机器人应该尊重它,大多数人都会这样做,但是(我猜)代理是不同的。
2014年

1
@ boot13不过要小心。这些是有效的Googlebot IP地址。因此,如果确实阻止了它,则仅对这些文件阻止它。假设您使用的是Apache,那么您应该可以使用.htaccess做到这一点。但这可能会导致其他问题,因此请确保您注意使用Google网站站长工具来发送消息。
closetnoc

@ boot13我已经更新了答案。您能否检查访问是在同一天/小时进行的还是随机的?
nunorbatista 2014年

@nunorbatista:他们似乎是随机的。我已将问题更新了一段时间。
2014年

@nunorbatista:请参阅上面的更新#3。它不是Googlebot或任何其他搜寻器,而是Google的代理服务。它与Google的实时网站预览无关。似乎一个或多个人刚刚通过Google Proxy下载了二进制文件,也许是为了避开本地限制或限制。蜘蛛陷阱的建议不太可能有所帮助,因为流量显然不是机器人。我想阻止Google代理IP访问包含二进制文件的文件夹;我将尝试使用htaccess代码,但是下载程序当然可以始终切换到另一个代理,因此可能毫无意义。
2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.