什么是最低有效的robots.txt文件?


14

我不喜欢在Web服务器的access.log中看到很多404错误。我收到这些错误消息是因为抓取工具尝试打开robots.txt文件,但找不到任何文件。因此,我想放置一个简单的robots.txt文件,以防止404错误出现在我的日志文件中。

允许爬网该网站上所有内容的最小有效robots.txt文件是什么?

Answers:


17

如图所示这里,创建一个名为的文本文件robots.txt的在您的Web服务器的顶级目录。您可以将其保留为空,或添加:

User-agent: *
Disallow:

如果您希望机器人抓取所有内容。如果没有,请参阅上面的链接以获取更多示例。


为什么要添加“不允许:”而不是仅添加“允许:*”?
Athoxx

2
@Patrik“ Allow”用于覆盖任何先前的“ Disallow”指令。如果没有“ Disallow”,则毫无意义。老实说,最好的解决方案是空白文件。
DisgruntledGoat 2014年

2
知道了 我也同意空白文件是最好的。
Athoxx

2
@PatrikAlienus,因为robots.txt规范中没有“允许”。
user11153 2015年

1
@ user11153:嗯?关于1997年Internet草案规范“ Web机器人控制方法 ”的“ 3.2.2允许和禁止行”部分呢?
戴维·卡里

2

最好的最小值robots.txt是一个完全空的文件。

其他任何“空”指令(例如,空指令Disallow或空指令)Allow: *都是无操作的,它们不仅无用,而且会增加不必要的复杂性。

如果您不希望文件完全为空,或者希望使其更易于阅读,则只需添加一个以#字符开头的注释,例如# blank file allows all。抓取工具会忽略以开头的行#


0

我会这样说;

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

它将允许Google抓取所有内容,但不允许Google抓取您的管理员面板。这是您的理想情况。


2
我可能会丢失一些东西,但我不认为提问者说他​​们正在使用Wordpress。
Maximillian Laumeister,
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.