我正在为网站使用以下robots.txt文件:目标是允许googlebot和bingbot访问除页面之外的网站,/bedven/bedrijf/*
并阻止所有其他bot爬行该网站。
User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: *
Disallow: /
最后一条规则是否User-agent: * Disallow: /
禁止所有漫游器抓取网站上的每个页面?
11
这整个任务与我有关。还有其他搜索引擎,使用它们的任何人都不会看到您的网站。theeword.co.uk/info/search_engine_market说,您的搜索引擎未访问互联网的4.99%。这是很多的人。更好的方法是监视您的流量并查看是否有任何漫游器真正导致了问题,然后专门阻止这些问题。
—
GKFX
出现异常的机器人可能只是完全忽略了你
—
尼克ŧ
robots.txt
反正
真的很糟糕的漫游器不在乎robots.txt
—
Osvaldo 2015年
@NickT,在现实世界中,不乏遵循
—
2015年
robots.txt
或至少遵守Disallow: /
规则的行为不端的机器人。如果您的个人网站因为机器人程序员从未考虑过该服务器可能是256 kbit连接的错误端上的Raspberry Pi而被重创,那么像这样的毯子式排除是很有用的。
@控制台为什么?
—
o0'。