网站管理员 robots.txt

4

我想列出每个网站上应该存在的文件列表。这样做的目的是取悦大多数浏览器和机器人，并减少日志中404条消息的数量。到目前为止，我有以下文件： /favicon.ico /robots.txt /sitemap.xml /apple-touch-icon-72x72-precomposed.png /apple-touch-icon-72x72.png /apple-touch-icon-precomposed.png /apple-touch-icon.png 是否还有其他经常请求的文件，应该在每个网站上？

36 robots.txt 404 logging favicon

6

如果我不想设置任何特殊的行为，如果我不麻烦拥有robots.txt文件，可以吗？

如果我不想设置任何特殊的行为，如果我不麻烦拥有robots.txt文件，可以吗？还是缺乏一种有害？

29 robots.txt

2

空的robots.txt和完全没有robots.txt之间有区别吗？

在网络服务器上，我现在不得不补充一下，我注意到robots.txt为空。我想知道在空白的robots.txt和根本没有文件之间是否有区别。在这两种情况下，搜寻器的行为是否有所不同？因此，仅删除一个空的robots.txt是否安全？

28 web-crawlers robots.txt webserver

1

我们可以在robots.txt文件中使用正则表达式来阻止网址吗？

我有一些动态生成的URL。我可以使用正则表达式在robots.txt文件中阻止这些网址吗？

23 robots.txt regular-expression

2

如何使用robots.txt禁止整个目录？

我目前在两个网站上工作，一个购物车，另一个购物者。两者都使用相同的域名，例如 http://example.com/first_url http://example.com/second_url 这两个URL下方都有大量页面 http://example.com/first_url/product1 http://example.com/first_url/product2 http://example.com/first_url/product3 http://example.com/second_url/product1 http://example.com/second_url/product2 http://example.com/second_url/product3 如何禁止主URL /first_url和/second_url也和所有的子页面和子目录？我在想像这样的事情，但我不知道这是否有效以及语法是否正确 Disallow: /first_url/*/ Disallow: /second_url/*/

19 seo robots.txt

2

为什么Google搜索结果中包含robots.txt中不允许的页面？

我的网站上有一些网页想要与搜索引擎保持距离，因此我在robots.txt文件中禁止这样的网页： User-Agent: * Disallow: /email 但是我最近注意到，Google有时仍会在搜索结果中返回指向这些页面的链接。为什么会发生这种情况，我该如何制止呢？背景：几年前，我为一个我的亲戚所涉及的俱乐部制作了一个简单的网站。他们想在其页面上添加电子邮件链接，因此，试图防止这些电子邮件地址以过多的形式出现垃圾邮件列表，不是使用直接mailto:链接，而是使这些链接指向在我自己的站点上运行的简单重定向器/ 地址收集器陷阱脚本。该脚本将返回到实际mailto:URL 的301重定向，或者，如果它检测到可疑的访问模式，则返回一个页面，该页面包含许多随机的虚假电子邮件地址以及指向更多此类页面的链接。为了使合法的搜索机器人远离陷阱，我设置了robots.txt上面显示的规则，不允许使用合法重定向程序链接和陷阱页面的全部空间。然而，就在最近，该俱乐部中的一个人在Google上搜索了自己的名字，当第一页上的一个结果是指向重定向脚本的链接时，感到很惊讶，其标题由电子邮件地址组成以我的名字当然，他们立即向我发送电子邮件，并想知道如何从Google的索引中删除其地址。我也很惊讶，因为我根本不知道Google会完全索引这样的URL，这似乎违反了我的robots.txt规则。我确实向Google提交了删除请求，该请求似乎奏效了，但我想知道Google为什么和如何绕开我的robots.txt请求，以及如何确保不允许的页面不会显示在他们的网站上搜索结果。附言实际上，在准备此问题时，我实际上找到了可能的解释和解决方案，我将在下面发布该解释和解决方案，但是我认为无论如何，如果有人可能遇到相同的问题，我还是会提出来。请随时发布您自己的答案。我也想知道其他搜索引擎是否也这样做，以及相同的解决方案是否也适用于他们。

18 google-search robots.txt

7

Google是否会缓存robots.txt？

一周前，我在自己的一个网站上添加了robots.txt文件，这应该可以阻止Googlebot尝试获取某些网址。但是，这个周末我可以看到Googlebot正在加载这些确切的网址。 Google会缓存robots.txt吗？

17 googlebot robots.txt google-cache

3

robots.txt可以位于服务器的子目录中吗？

我有一个要从搜索引擎网络搜寻器隐藏的子目录。一种方法是robots.txt在服务器的根目录中使用a （标准方法）。但是，任何知道网站URL并具有一些基本Web知识的人都可以访问robots.txt内容并可以发现不允许的目录。我曾想过一种避免这种情况的方法，但我不确定是否可行。我们X是子目录，我要排除的名称。停止Web爬网程序索引X目录并同时使某人更难X从根目录识别目录的robots.txt一种方法是robots.txt在X目录中添加，而不是在根目录中添加。如果我遵循此解决方案，则会遇到以下问题： Web爬网程序会robots.txt在子目录中找到吗？（假设robots.txt存在，并且已经存在于根目录中）如果robots.txt在X子目录中，那么我应该使用相对还是绝对路径？： User-agent: * Disallow: /X/ 要么 User-agent: * Disallow: /

16 web-crawlers robots.txt

4

网站被黑客入侵，需要从Google删除所有以+开头的网址，使用robots.txt吗？

您能否让我知道如何阻止此类网址，robots.txt以便Googlebots停止编制索引？ http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q 我的网站已被黑客入侵，现已恢复，但黑客在Google中索引了5000个URL，现在我在随机生成的链接上收到错误404，尤其是从/+上述链接开始。我想知道是否有一种手动方法可以从Google网站站长工具中手动删除这些网址？我们可以将其阻止robots.txt到以+sign 开头的URL 吗？

15 google-search robots.txt url-removal

3

什么是最低有效的robots.txt文件？

我不喜欢在Web服务器的access.log中看到很多404错误。我收到这些错误消息是因为抓取工具尝试打开robots.txt文件，但找不到任何文件。因此，我想放置一个简单的robots.txt文件，以防止404错误出现在我的日志文件中。允许爬网该网站上所有内容的最小有效robots.txt文件是什么？

14 robots.txt

3

Robots.txt-CSS允许或不允许

robots.txt中允许使用CSS和模板吗？应该引起什么问题吗？在Joomla中，robots.txt中不允许使用CSS和模板。请帮助我找到一个解决方案，以决定是否禁止即将发布的网站的CSS，模板等机器人使用。

12 css robots.txt

3

Robots.txt：是否需要禁止未链接的页面？

我的网站上有一些页面，只有当我给他/她提供URL时，我才希望用户能够访问。如果我不允许中的单个页面robots.txt，则任何查看该页面的人都可以看到。我的问题是：如果我不从任何地方链接它们，或者至少不从任何索引页面链接它们，爬虫仍会以某种方式访问它们吗？

12 robots.txt

2

哪些机器人真正值得进入网站？

编写了许多机器人程序，并看到大量随机机器人程序在爬网时，我想知道作为网站管理员，究竟有什么机器人程序值得让您进入网站？我首先想到的是，允许漫游器进入该网站可能会带来实际流量。有什么理由允许未知的机器人将真实流量发送到站点，您如何发现这些“好”机器人？

11 seo web-crawlers robots.txt googlebot bingbot

4

从Google /搜索引擎SEO结果中隐藏子域？

我有一个Subomain，我不想在任何搜索引擎结果中列出。假设我有： http://www.example.com http://child.example.com 如何隐藏搜索引擎结果中当前显示的所有child.example.com域URL ？

11 search-engines url robots.txt search noindex

2

Google网站管理员工具告诉我，机器人阻止了对站点地图的访问

这是我的robots.txt： User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz 但是Google网站站长工具告诉我，机器人阻止了对站点地图的访问：尝试访问您的站点地图时遇到错误。请确保您的站点地图符合我们的指南，并且可以在您提供的位置进行访问，然后重新提交：URL受robots.txt限制。我了解到Google网站站长工具会缓存robots.txt，但该文件已更新36个小时以上。更新：点击“测试”站点地图不会导致Google获取新的站点地图。只有SUBMIT网站地图可以做到这一点。（顺便说一句，除非您将当前站点地图粘贴到其中，否则我看不出“测试站点地图”的意义是什么-它不会从测试前要求您输入的地址中提取站点地图的新副本-但这是换个问题。）提交（而非测试）新的站点地图后，情况发生了变化。现在，我得到“ URL被robots.txt阻止。站点地图包含被robots.txt阻止的URL 。” 适用于44个网址。该站点地图中恰好有44个URL。这意味着Google使用的是新的站点地图，但仍旧沿用旧的机器人规则（这使所有内容都无法进入）。44个URL都不在/wp-admin/或/wp-includes/（这是不可能的，因为robots.txt是基于由创建站点地图的相同插件即时获取）。更新2：情况变得更糟：在Google搜索结果页上，首页的描述为：“由于该网站的robots.txt –了解更多，因此无法提供此结果的描述”。所有其他页面都有详细的说明。没有robots.txt或首页的robots元拦截索引。我被卡住了。

11 google-search-console robots.txt web-crawlers

Questions tagged «robots.txt»