我们可以在robots.txt文件中使用正则表达式来阻止网址吗?


23

我有一些动态生成的URL。

我可以使用正则表达式在robots.txt文件中阻止这些网址吗?


在您不希望爬网/建立索引的页面上设置漫游器元标记也是值得的。
安德鲁·洛特2014年

@AndrewLott在我来说,我有500多个页面,所以我在robots.txt中认为使用正则表达式..
Sudheera NJS

然后,您的站点代码中的规则可能会更有帮助。
Andrew Lott 2014年

Answers:


27

正则表达式在robots.txt中无效,但是Google,Bing和其他一些漫游器确实可以识别某些模式匹配。

假设您要屏蔽网址中example任意位置的所有网址,则可以使用通配符*

User-agent: *
Disallow: /*example

您也可以使用美元符号$来指定URL必须以这种方式结束。因此,如果您想阻止所有以结尾的URL example,而不是URL中带有example其他位置的URL,可以使用:

User-agent: *
Disallow: /*example$

更深入的谷歌信息可以在这里找到:robots.txt的规格,兵在这里:如何创建Robots.txt文件,并有上万盎司一个交互式指南这里


完美,*工作正常,已在网络主工具中进行了测试。。谢谢Max ... :)
Sudheera Njs 2014年

我不建议在robots.txt文件中使用过于花哨的指令;这些真的很难在以后进行调试。尝试使事情尽可能简单。还要记住,robots.txt区分大小写,因此您可能需要根据您的站点添加指令的备用版本。
John Mueller 2014年

如果支持正则表达式会很好
SuperUberDuper '16
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.