如何配置robots.txt以允许所有内容?


116

robots.txtGoogle网站管理员工具中的“ 我的” 显示以下值:

User-agent: *
Allow: /

这是什么意思?我没有足够的知识,所以寻求您的帮助。我想允许所有机器人抓取我的网站,这是正确的配置吗?


并非所有Web爬网程序都理解允许,请改用disavow :(即,:之后没有URL)。它是安全的(参见:youtu.be/G29Zt-UH_Ko
杰罗姆Verstrynge

Answers:



60

如果要允许每个漫游器对所有内容进行爬网,这是在robots.txt中进行指定的最佳方法:

User-agent: *
Disallow:

请注意,该Disallow字段具有空值,这意味着根据规范

任何空值表示可以检索所有URL。


您的方式(使用Allow: /而不是Disallow:)也可以使用,但Allow不是原始robots.txt规范的一部分,因此并非所有bot都支持(尽管很多流行的bot都支持它,例如Googlebot)。就是说,必须忽略无法识别的字段,对于不能识别的漫游器,Allow无论如何在这种情况下结果都是相同的:如果禁止任何内容(使用Disallow)进行爬网,则所有内容都可以被爬网。
但是,正式而言(按照原始规范)它是无效记录,因为至少Disallow需要一个字段:

记录中至少需要存在一个Disallow字段。


17

我知道这是一个比较老的问题,并且有一些很好的答案。但是,为了完整性,这是我的两分钱。

根据官方文档,有四种方法,您可以允许机器人完全访问您的站点。

清洁:

如@unor所述,指定一个带有禁止段的全局匹配器。所以你/robots.txt看起来像这样。

User-agent: *
Disallow:

hack:

创建一个/robots.txt没有内容的文件。默认情况下将允许所有类型的Bots

我不在乎方式:

请勿完全创建/robots.txt。这应该产生与上面两个完全相同的结果。

丑陋的:

用于元标记漫游器文档,您可以在网站上所有页面上使用以下元标记,以使Bots这些页面不应该被索引。

<META NAME="ROBOTS" CONTENT="NOINDEX">

为了将此应用于您的整个网站,您将必须为所有页面添加此元标记。并且此标签应严格置于HEAD页面的标签下。更多关于这个元标记在这里


但是,没有robots.txt和Wordpress是一个不好的组合,因为WordPress会生成虚拟的robots.txt。除非您对WordPress生成的一个单词感到满意。
Jesper

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.