Questions tagged «robots.txt»

Robots.txt是网站所有者用于向网络机器人提供有关其网站的说明的文本文件。基本上,它告诉机器人站点的哪些部分是打开的,哪些部分是关闭的。这称为机器人排除协议。

4
我应该在每个网站上拥有的文件
我想列出每个网站上应该存在的文件列表。这样做的目的是取悦大多数浏览器和机器人,并减少日志中404条消息的数量。 到目前为止,我有以下文件: /favicon.ico /robots.txt /sitemap.xml /apple-touch-icon-72x72-precomposed.png /apple-touch-icon-72x72.png /apple-touch-icon-precomposed.png /apple-touch-icon.png 是否还有其他经常请求的文件,应该在每个网站上?




2
如何使用robots.txt禁止整个目录?
我目前在两个网站上工作,一个购物车,另一个购物者。两者都使用相同的域名,例如 http://example.com/first_url http://example.com/second_url 这两个URL下方都有大量页面 http://example.com/first_url/product1 http://example.com/first_url/product2 http://example.com/first_url/product3 http://example.com/second_url/product1 http://example.com/second_url/product2 http://example.com/second_url/product3 如何禁止主URL /first_url和/second_url也和所有的子页面和子目录?我在想像这样的事情,但我不知道这是否有效以及语法是否正确 Disallow: /first_url/*/ Disallow: /second_url/*/
19 seo  robots.txt 

2
为什么Google搜索结果中包含robots.txt中不允许的页面?
我的网站上有一些网页想要与搜索引擎保持距离,因此我在robots.txt文件中禁止这样的网页: User-Agent: * Disallow: /email 但是我最近注意到,Google有时仍会在搜索结果中返回指向这些页面的链接。为什么会发生这种情况,我该如何制止呢? 背景: 几年前,我为一个我的亲戚所涉及的俱乐部制作了一个简单的网站。他们想在其页面上添加电子邮件链接,因此,试图防止这些电子邮件地址以过多的形式出现垃圾邮件列表,不是使用直接mailto:链接,而是使这些链接指向在我自己的站点上运行的简单重定向器/ 地址收集器陷阱脚本。该脚本将返回到实际mailto:URL 的301重定向,或者,如果它检测到可疑的访问模式,则返回一个页面,该页面包含许多随机的虚假电子邮件地址以及指向更多此类页面的链接。为了使合法的搜索机器人远离陷阱,我设置了robots.txt上面显示的规则,不允许使用合法重定向程序链接和陷阱页面的全部空间。 然而,就在最近,该俱乐部中的一个人在Google上搜索了自己的名字,当第一页上的一个结果是指向重定向脚本的链接时,感到很惊讶,其标题由电子邮件地址组成以我的名字 当然,他们立即向我发送电子邮件,并想知道如何从Google的索引中删除其地址。我也很惊讶,因为我根本不知道Google会完全索引这样的URL,这似乎违反了我的robots.txt规则。 我确实向Google提交了删除请求,该请求似乎奏效了,但我想知道Google为什么和如何绕开我的robots.txt请求,以及如何确保不允许的页面不会显示在他们的网站上搜索结果。 附言 实际上,在准备此问题时,我实际上找到了可能的解释和解决方案,我将在下面发布该解释和解决方案,但是我认为无论如何,如果有人可能遇到相同的问题,我还是会提出来。请随时发布您自己的答案。我也想知道其他搜索引擎是否也这样做,以及相同的解决方案是否也适用于他们。


3
robots.txt可以位于服务器的子目录中吗?
我有一个要从搜索引擎网络搜寻器隐藏的子目录。 一种方法是robots.txt在服务器的根目录中使用a (标准方法)。但是,任何知道网站URL并具有一些基本Web知识的人都可以访问robots.txt内容并可以发现不允许的目录。 我曾想过一种避免这种情况的方法,但我不确定是否可行。 我们X是子目录,我要排除的名称。停止Web爬网程序索引X目录并同时使某人更难X从根目录识别目录的robots.txt一种方法是robots.txt在X目录中添加,而不是在根目录中添加。 如果我遵循此解决方案,则会遇到以下问题: Web爬网程序会robots.txt在子目录中找到吗?(假设robots.txt存在,并且已经存在于根目录中) 如果robots.txt在X子目录中,那么我应该使用相对还是绝对路径?: User-agent: * Disallow: /X/ 要么 User-agent: * Disallow: /

4
网站被黑客入侵,需要从Google删除所有以+开头的网址,使用robots.txt吗?
您能否让我知道如何阻止此类网址,robots.txt以便Googlebots停止编制索引? http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q 我的网站已被黑客入侵,现已恢复,但黑客在Google中索引了5000个URL,现在我在随机生成的链接上收到错误404,尤其是从/+上述链接开始。 我想知道是否有一种手动方法可以从Google网站站长工具中手动删除这些网址? 我们可以将其阻止robots.txt到以+sign 开头的URL 吗?

3
什么是最低有效的robots.txt文件?
我不喜欢在Web服务器的access.log中看到很多404错误。我收到这些错误消息是因为抓取工具尝试打开robots.txt文件,但找不到任何文件。因此,我想放置一个简单的robots.txt文件,以防止404错误出现在我的日志文件中。 允许爬网该网站上所有内容的最小有效robots.txt文件是什么?
14 robots.txt 

3
Robots.txt-CSS允许或不允许
robots.txt中允许使用CSS和模板吗? 应该引起什么问题吗? 在Joomla中,robots.txt中不允许使用CSS和模板。请帮助我找到一个解决方案,以决定是否禁止即将发布的网站的CSS,模板等机器人使用。
12 css  robots.txt 

3
Robots.txt:是否需要禁止未链接的页面?
我的网站上有一些页面,只有当我给他/她提供URL时,我才希望用户能够访问。 如果我不允许中的单个页面robots.txt,则任何查看该页面的人都可以看到。 我的问题是:如果我不从任何地方链接它们,或者至少不从任何索引页面链接它们,爬虫仍会以某种方式访问​​它们吗?
12 robots.txt 

2
哪些机器人真正值得进入网站?
编写了许多机器人程序,并看到大量随机机器人程序在爬网时,我想知道作为网站管理员,究竟有什么机器人程序值得让您进入网站? 我首先想到的是,允许漫游器进入该网站可能会带来实际流量。有什么理由允许未知的机器人将真实流量发送到站点,您如何发现这些“好”机器人?


2
Google网站管理员工具告诉我,机器人阻止了对站点地图的访问
这是我的robots.txt: User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz 但是Google网站站长工具告诉我,机器人阻止了对站点地图的访问: 尝试访问您的站点地图时遇到错误。请确保您的站点地图符合我们的指南,并且可以在您提供的位置进行访问,然后重新提交:URL受robots.txt限制。 我了解到Google网站站长工具会缓存robots.txt,但该文件已更新36个小时以上。 更新: 点击“测试”站点地图不会导致Google获取新的站点地图。只有SUBMIT网站地图可以做到这一点。(顺便说一句,除非您将当前站点地图粘贴到其中,否则我看不出“测试站点地图”的意义是什么-它不会从测试前要求您输入的地址中提取站点地图的新副本-但这是换个问题。) 提交(而非测试)新的站点地图后,情况发生了变化。现在,我得到“ URL被robots.txt阻止。站点地图包含被robots.txt阻止的URL 。” 适用于44个网址。该站点地图中恰好有44个URL。这意味着Google使用的是新的站点地图,但仍旧沿用旧的机器人规则(这使所有内容都无法进入)。44个URL都不在/wp-admin/或/wp-includes/(这是不可能的,因为robots.txt是基于由创建站点地图的相同插件即时获取)。 更新2: 情况变得更糟:在Google搜索结果页上,首页的描述为:“由于该网站的robots.txt –了解更多,因此无法提供此结果的描述”。所有其他页面都有详细的说明。没有robots.txt或首页的robots元拦截索引。 我被卡住了。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.