Google预览服从Robots.txt吗?


11

因为它看起来确实像。对于我的网站,我们不允许使用图像目录,并且预览都丢失了图像,这使该网站看起来很古怪。

是这种情况,有没有办法让预览机器人仅使用robots.txt访问图像?

编辑:看起来预览是由普通的Google Bot以及由运行中的机器人Google Web Preview生成的(简短地在Webmaster Central Blog上提到)。

通过使用站点:搜索和我的监视软件,我可以看到机器人何时击中了我的站点,以及何时发生这种情况,图像在预览中显示得很好。因此,我的猜测是普通的搜寻器会忽略每个robots.txt的图像,但是预览搜寻器仍然会获取图像。

这种实现方式似乎很糟糕,因为我的选择似乎是:

  1. 允许Google机器人抓取我的图片(我不想这样做)
  2. 使用阻止预览的nosnippet标签,但也要使用摘要(我不想这样做)
  3. 出现不稳定的预览,这可能会对点击率产生不利影响

如果只是不对图像编制索引,可以允许爬网,但可以使用带有“ noindex”的x-robots-tag HTTP标头提供图像。
约翰·穆勒

@John Mueller这看起来就是答案。为什么不将其发布在答案部分?
plntxt

Answers:


3

我认为约翰·穆勒(John Mueller)在评论中是对的。

如果仅不对图像进行索引,则可以允许爬网,但可以使用带有“ noindex”的x-robots-tag HTTP标头提供图像

我不知道您是否可以允许Google检索不带索引的内容。我将他的技术放在适当的位置,只是在等待爬行以查看它是否有效。

几天后,我将接受此作为答案,除非John希望将自己的评论添加到答案部分,以便他获得代表。


对不起,评论答案:)。要记住的一件事是,此过程目前并没有那么快。更改图像的索引状态通常比Web搜索要慢,并且更新预览图像也可能比更新常规Web搜索内容(缓存的页面,标题,摘要)花费的时间长得多。在实践中,我想这将需要几个星期的时间才能让您看到任何更改-所以请耐心:)。
约翰·穆勒

耐心是关键。更改几周后,现在可以看到一些图像,但仍然缺少这些图像。但这似乎已经解决了我的问题。
plntxt 2010年

2

由于预览的大部分是由Google机器人抓取工具完成的,因此阻止抓取您网站的某些部分会影响预览...

您为什么不想让Google bot抓取您的图片?


2
我们在产品摄影上花费了大量的时间和金钱,并且我们希望将我们的图像排除在图像搜索之外,因为使用图像搜索的人通常会搜索图像而不是打算购买产品。如果我们的图片在索引中,那么竞争对手将更容易窃取它们。
plntxt

1
您可以尝试通过引荐在图片和/或隐写术内部添加水印和/或过滤显示...
Pascal Qyy 2010年

1
@G。Qyy或者我可以付不计其数的猴子来扫描网上的版权图像。
plntxt

@吉姆:或者你可以把你的照片珍贵地保存在纸上,并且永远不要将它们放在互联网上……^^
Pascal Qyy

1
好点-没有什么可以完全保护您的图片,但是我真的不希望它们不被Google索引。我不喜欢加水印,并且在其他地方减少图像的最经济有效的方法是将它们排除在索引之外。
plntxt

2

以下是一个技术解决方案,可能会或可能不会仅适用于您的站点。

Google可能(甚至可能)提出一种方法,仅在元数据或robots.txt中提供一些提示,但是直到那时...。


第1步。

为首页图像创建重定向服务/ servlet。

即类似的URL

/frontpageimages/[image name]

,做一个服务器端重定向

/images/[image name]

第2步。

重写首页(并且只有首页)上的所有图像链接,以通过步骤1中的重定向服务进行操作,而不是直接链接至图像。

第三步

确保robots.txt允许googlebot抓取 /frontpageimages/


这样可以确保Google可以抓取您在首页上遇到的所有图像,而不会将其他页面上的任何图像单独留下。

虽然重定向服务可以(理论上)用于抓取您的所有图像,而不会在技术上违反您的robots.txt,但这并不是表现良好的机器人(例如googlebot)要做的事情。表现不好的机器人不会担心robots.txt。


谁只希望其首页显示预览?我知道我希望每个页面都显示出良好的预览效果。如果对每个页面都执行此操作,则实际上是在否定首先要阻止图像的目的。
约翰·孔德

@约翰,你是对的。在这种情况下,您要么希望Google为您编制索引,要么就不要。
克里斯(Kris)2010年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.