如果我不想设置任何特殊的行为,如果我不麻烦拥有robots.txt文件,可以吗?


Answers:


30

缺少robots.txt文件不会有害。在robotstxt.org网站上

允许所有机器人完全访问

用户代理:*
禁止:

(或仅创建一个空的“ /robots.txt”文件,或者根本不使用一个文件)

但是,即使您没有在robots.txt文件中指定任何内容,它也是一种将XML Sitemap的位置通知搜索引擎的好方法。您可以通过在robots.txt文件顶部添加类似于以下内容的一行来完成此操作:

站点地图:http : //www.example.com/sitemap-host1.xml

您还应该知道,没有它会在您的Web日志中创建很多404条目。


+1-不错的总结,尽管我真的会特别强调Kinopiko已经正确强调的内容:只需创建最基本甚至是一个空的页面即可避免出现这些404,并且(取决于您的站点404页面的处理方式)可能会带来一些流量/带宽,因为搜索引擎将应用适当的HTTP缓存控制来跳过再次下载文件(如果文件没有更改),无论文件是否为空。
斯特芬欧宝

标记为Wiki,请根据需要进行编辑。
JasonBirch'7

21

如果您没有“ robots.txt”,则错误日志将在文件上显示很多404,这可能是一种烦恼,类似于没有图标的情况。


1
一个极好的点..
杰夫·阿特伍德

1
+1-我想补充一点,您不仅可以将自己从更大且嘈杂的日志文件中拯救出来,而且还可以(取决于您的站点404页的处理方式)避免由于大多数404页被占用而带来的相当大的流量/带宽大于一个简单的robots.txt文件,此外,由于搜索引擎应用了适当的HTTP缓存控制,该文件的下载频率也会降低。
斯特芬欧宝

6

我认为应该没问题,否则网络蜘蛛将无法索引庞大的网络。

几乎在定义上robots.txt,“ 否”与“允许所有人索引”相同robots.txt


2

缺少robots.txt文件会使爬虫程序自行决定它可以做什么和不能做什么。由于只需几秒钟即可避免任何歧义,为什么不制作一个允许所有代理访问所有内容的歧义呢?


0

好吧,因为robots.txt包含您站点地图的地址,所以没有一个可能会造成危害。


站点地图仅对某些类型的网站有用,IMO
Jeff Atwood 2010年

我还看到过抓取工具(尤其是Google)在没有robots.txt的情况下寻找/sitemap.xml或/sitemap.gz
蒂姆·波斯特

您不需要在robots.txt中添加站点地图,也可以将其提交到Google / Yahoo / Bing。绝对不是“潜在有害”。
DisgruntledGoat 2010年

0

根据您的内容,没有机械手文件应该没有问题,只要您希望网站上的每个页面都被搜索引擎索引。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.