自2014年8月中旬以来,几台Google服务器大约每周一次在我的网站上下载所有(很大)二进制文件。所有IP均显示为Google拥有,外观如下:google-proxy-66-249-88-199.google.com。这些是GET请求,它们极大地影响了我的服务器流量。
在此之前,我没有看到来自这些Google代理IP的任何流量,因此这似乎是相对较新的东西。我确实看到了来自其他Google IP的各种流量,所有这些仅是googlebot和HEAD请求。
我不会担心这一点,除了Google大约每星期都会下载所有这些文件。使用的带宽开始变得过多。
我推测,由于其中许多文件都是Windows可执行文件,因此Google可能正在下载它们以执行恶意软件扫描。即使是这样,这真的需要每周进行一次吗?
到目前为止,11月份来自Google代理IP的流量示例:
google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB
更新#1:我忘了提到有问题的文件已经在网站的robots.txt文件中。为了使robots.txt配置正常运行,我还使用了Google网站站长工具中的robots.txt测试仪,该测试仪表明,所有Google机器人的文件都被禁止,但有一个例外:Adsbot-Google。我不知道那是什么。并且我在Google中搜索了一些文件,但它们没有出现在搜索结果中。
更新#2:示例:11月17日太平洋标准时间(PST)在5:12 am和5:18 am之间,大约有六个IP(全部为google-proxy)对所有有问题的二进制文件执行GET,总共27个。在11月4日太平洋标准时间下午2:09和下午2:15之间,这些相同的IP基本完成了相同的操作。
更新#3:到目前为止,似乎很明显,尽管这些是有效的Google IP,但它们是Google代理服务的一部分,而不是Google网络抓取系统的一部分。因为这些是代理地址,所以无法确定GET请求的实际来源,或者它们是否来自一个地方或多个地方。基于GET的零星性质,似乎并没有发生任何有害的事情;可能只是某个人决定在使用Google的代理服务时下载所有二进制文件。不幸的是,该服务似乎完全没有文档记录,这没有帮助。从站点管理员的角度来看,代理非常令人讨厌。我不想阻止它们,因为它们有合法用途。但是它们也可能被滥用。