如何配置robots.txt以允许所有内容？

116

robots.txtGoogle网站管理员工具中的“ 我的” 显示以下值：

User-agent: *
Allow: /

这是什么意思？我没有足够的知识，所以寻求您的帮助。我想允许所有机器人抓取我的网站，这是正确的配置吗？

robots.txt

— Raajpoot
source

并非所有Web爬网程序都理解允许，请改用disavow :（即，：之后没有URL）。它是安全的（参见：youtu.be/G29Zt-UH_Ko）

— 杰罗姆Verstrynge

153

该文件将允许所有爬网程序访问

User-agent: *
Allow: /

这基本上允许所有用户代理（*）访问站点的所有部分（/）。

— 吉姆
source

11

正确，除非您需要取消允许部分。没有“允许”，因此应使其如下所示：“用户代理：*禁止：”，如此处所示：robotstxt.org/robotstxt.html

— vsdev

有一个允许的部分。检查谷歌官方文档developers.google.com/search/reference/robots_txt#allow

— 哈桑旋塞阀Ozalp

60

如果要允许每个漫游器对所有内容进行爬网，这是在robots.txt中进行指定的最佳方法：

User-agent: *
Disallow:

请注意，该Disallow字段具有空值，这意味着根据规范：

任何空值表示可以检索所有URL。

您的方式（使用Allow: /而不是Disallow:）也可以使用，但Allow不是原始robots.txt规范的一部分，因此并非所有bot都支持（尽管很多流行的bot都支持它，例如Googlebot）。就是说，必须忽略无法识别的字段，对于不能识别的漫游器，Allow无论如何在这种情况下结果都是相同的：如果禁止任何内容（使用Disallow）进行爬网，则所有内容都可以被爬网。
但是，正式而言（按照原始规范）它是无效记录，因为至少Disallow需要一个字段：

记录中至少需要存在一个Disallow字段。

— Unor
source

17

我知道这是一个比较老的问题，并且有一些很好的答案。但是，为了完整性，这是我的两分钱。

根据官方文档，有四种方法，您可以允许机器人完全访问您的站点。

清洁：

如@unor所述，指定一个带有禁止段的全局匹配器。所以你/robots.txt看起来像这样。

User-agent: *
Disallow:

hack：

创建一个/robots.txt没有内容的文件。默认情况下将允许所有类型的Bots。

我不在乎方式：

请勿完全创建/robots.txt。这应该产生与上面两个完全相同的结果。

丑陋的：

从用于元标记的漫游器文档，您可以在网站上所有页面上使用以下元标记，以使Bots这些页面不应该被索引。

<META NAME="ROBOTS" CONTENT="NOINDEX">

为了将此应用于您的整个网站，您将必须为所有页面添加此元标记。并且此标签应严格置于HEAD页面的标签下。更多关于这个元标记在这里。

— 拉贾·安巴扎甘（Raja Anbazhagan）
source

但是，没有robots.txt和Wordpress是一个不好的组合，因为WordPress会生成虚拟的robots.txt。除非您对WordPress生成的一个单词感到满意。

— Jesper

8

这意味着您允许每个（*）用户代理/爬网程序访问/站点的根（）。你还好。

— 乔迪
source

5

根据robotstxt.org/robotstxt.html，没有“允许”字段，因此我要谨慎使用。维基百科中提到“一些主要的爬虫支持允许指令，它可以抵消以下disallow指令”：en.wikipedia.org/wiki/Robots_exclusion_standard#Allow_directive

— Mackaaij