Questions tagged «googlebot»

Googlebot是Google每天用于爬网超过200亿页的bot软件,然后对在爬网过程中获得的数据进行分析并在Google搜索中进行排名。

1
在移动设备上使用Chrome时,为什么我的IP地址变成Google的IP地址?
我正在跟踪每个成员的地理位置(使用db-ip),除带有Chrome浏览器的手机外,其他一切都很好。 他们总是给我结果US Mountain View California ip:66.249.xxx.xxx。这是Google;我对此有100%的把握。但是访问该网站的人是我自己。 我什至不在美国。我正在使用本地GSM ISP。 当我将手机与Chrome浏览器一起使用时,为什么我的IP地址成为Google的IP地址之一?

4
防止XML网站地图显示在Google搜索结果中
如何防止XML网站地图文件显示在Google搜索结果中,例如site:搜索查询的结果: 我不明白为什么Google首先会选择在搜索结果中显示站点地图文件。这些文件不供人类使用。 Google需要能够对其进行爬网以进行处理,因此我不能在robots.txt中禁止它。我只是不希望他们在处理之后将其放入搜索结果中。

3
有可能减慢百度蜘蛛的爬网频率吗?
百度蜘蛛的爬虫频率已经做出了很多。的确是这样:“ Baiduspider像疯了似的爬行。” 我在与我合作的网站上遇到了这种现象。在至少一个实例中,尽​​管百度提供的流量约为Google的0.1%,但我发现百度蜘蛛的抓取频率与Googlebot大致相同。 我希望将这些访问次数保持在我的网站上,数量尽可能少(也许有一天会增长吗?),但是我不能证明允许服务器上有如此大的负载。 上面链接的问题的公认答案表明,百度网站管理员工具提供了限制爬网速度的机会,但我很犹豫是否开放蠕虫(仅中文)罐。 是否有人有使用BWT限制Baiduspider爬网率的经验?还有另一种方法来限制此负载吗?


3
SEO-自适应网站和重复菜单
每当我创建响应式网站时,通常都会创建2个菜单:1个隐藏并用于移动电话,另一个显示为主菜单,然后隐藏以显示移动菜单。每当涉及SEO和蜘蛛浏览网站时,我是否因重复菜单而感到沮丧?我有什么可以向蜘蛛网指示此菜单适用于移动设备,这是主要功能吗? 我有2个不同菜单的最终原因是由于位置,通常主菜单位于徽标等下方的某种栏中,但是我想将移动菜单置于所有内容之上,因此位于徽标等上方。

4
Googlebot是否支持TLS v1.2?如果没有,我的仅TLS v1.2的网站会是什么样?
我目前将所有非HTTPS连接重定向到HTTPS,并支持TLS v1,TLS v1.1和TLS v1.2。我将测试服务器重新配置为仅接受非常有限且安全的密码套件和TLSv1.2。在运行SSL Labs测试后,我注意到它们的兼容性图表显示Bing和Google的搜寻器不支持TLSv1以外的版本。 这仍然准确吗?除了SSL Labs结果页面之外,我在任何地方都找不到该机器人协议的支持。 Googlebot真的只支持TLS v1吗? 如果我仅支持TLS v1.2,并且Googlebot无法连接到我的网站,那么Google会认为它处于什么状态?


2
Googlebot如何找到仅对经过身份验证的用户可见的URL?
这是我的一位客户,已登录他的帐户后执行一些操作。唯一令牌只是一个加密的用户ID +时间戳。 94.254.xxx.xxx--[02 / Jul / 2011:22:25:46 +0200]“ GET / some-action / unique-token-123abc HTTP / 1.1” 200 410“-”“ Mozilla / 5.0(兼容; MSIE 9.0; Windows NT 6.1; Trident / 5.0)” 现在,Googlebot以某种方式发现了这个唯一链接,并在一周后尝试访问完全相同的URL。 66.249.71.179--[10 / Jul / 2011:09:56:01 +0200]“ GET / some-action / unique-token-123abc HTTP / 1.1” 302-“-”“ Mozilla / 5.0(兼容; Googlebot / …

4
Google不会抓取CDN文件
我注意到Google网站站长工具报告了我网站上很多被阻止的资源。现在,所有“被阻止的资源”都是我从Cloudfront CDN提供的.css,.js和图像(.jpg,.png)。 我花了很多时间进行测试,并试图找出Google为什么不抓取这些文件并报告“资源阻止”状态的原因。 目前,我从多个主机名提供这些文件,例如:cdn1.example.com,cdn2.example.com,... cdn1,cdn2和其他名称是CCloud的Cloudfront发行名称。 测试:我尝试直接使用cloudfront发行版(无CNAME),但问题仍然存在。 目前,我的robots.txt如下所示: # Google AdSense User-agent: Mediapartners-Google Disallow: #Google images User-agent: Googlebot-Image Disallow: / User-agent: * Disallow: /homepage Disallow: /index.php* Disallow: /uncategorized* Disallow: /tag/* Disallow: *feed Disallow: */page/* Disallow: *author* Disallow: *archive* Disallow: */category* Disallow: *tag=* Disallow: /test* Allow: / 以及在一个示例页面中阻止的文件示例: cdn1.example.com/wp-content/plugins/wp-forecast/wp-forecast-default.css cdn9.example.com/wp-content/plugins/bwp-minify/min/?f=wp-content/themes/magazine/css/font-awesome.min.css,wp-content/themes/magazine/css/response .css cdn5.example.com/wp-content/themes/magazine/images/nobg.png …

2
哪些机器人真正值得进入网站?
编写了许多机器人程序,并看到大量随机机器人程序在爬网时,我想知道作为网站管理员,究竟有什么机器人程序值得让您进入网站? 我首先想到的是,允许漫游器进入该网站可能会带来实际流量。有什么理由允许未知的机器人将真实流量发送到站点,您如何发现这些“好”机器人?

1
链接rel =“ alternate”,多种语言和规范网址
上下文:我们有一个提供多种语言版本的网站。但是,内容是相同的。该网站的每个翻译版本都可以在不同的子域中找到。 在某些页面上,<link rel="canonical" />如有必要,我们使用指向同一页面相同语言的规范版本。这只是基本的规范化内容,在这种情况下是标签的排序。 问题是,我们可能会有一个页面,其中<link rel="canonical" />存在一个用于规范化的页面,另外还有一堆<link rel="alternate" hreflang="XX"/>标记以指向不同的翻译。 Google在这种情况下会做什么?我们不想因重复的内容而受到惩罚,但也不想失去Google索引中页面的不同语言版本。 我们进行了很多搜索,找不到任何可以解决我们问题的信息,并且一些资源对该主题造成了混乱。

1
robots.txt中的“ Noindex:”如何工作?
我今天在我的SEO新闻中浏览了这篇文章。似乎暗示您Noindex:除了robots.txt中的标准Disallow:指令外,还可以使用指令。 Disallow: /page-one.html Noindex: /page-two.html 似乎这样做会阻止搜索引擎抓取第一页,并阻止它们索引第二页。 这是robots.txt的谷歌和其他搜索引擎所支持的指令?它行得通吗?有文件记录吗?

3
Search Engine Spider是否提交POST表单?
如果我在POST表单(例如我的选择框)后面有内容,Googlebot或其他Search Engine Spiders是否可以在该表单后面抓取内容? 例如,如果我要在一页上进行4种翻译,并且语言选择是将POST表单传递到相同的URL,然后将其重定向到特定于语言的URL,那么Googlebot是否可以抓取“其他”语言?

1
Google如何抓取我的403页?
我的学校文件夹中的目录中有几个私人文件。您可以通过转到myschool.edu/myusername/myfolder来查看文件是否存在,但是尝试通过myschool.edu/myusername/myfolder/myfile.html访问文件本身会返回403错误。 但是Google以某种方式设法获取了这些私有文件的内容,并将其存储在其缓存中!这怎么可能?[此后我已经删除了这些文件,所以我很好奇Google如何做到这一点。]


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.