Robots.txt:是否需要禁止未链接的页面?


12

我的网站上有一些页面,只有当我给他/她提供URL时,我才希望用户能够访问。

如果我不允许中的单个页面robots.txt,则任何查看该页面的人都可以看到。

我的问题是:如果我不从任何地方链接它们,或者至少不从任何索引页面链接它们,爬虫仍会以某种方式访问​​它们吗?

Answers:


11

您根本不希望页面出现在SERP中...

请勿禁止robots.txt。而是在页面上添加noindex元标记(或X-Robots-Tag HTTP标头)。

正如j0k所暗示的,可以以某种方式找到您的页面。统计报告,目录列表等...

禁止robots.txt阻止网页被抓取,但仍可以建立索引,并可能在SERP中显示为仅URL链接。就像是:

Google SERP中仅URL链接

noindex元标记可阻止页面完全显示在SERP中-但是Google必须能够抓取页面才能看到noindex元标记-因此,它不能在robots.txt中被禁止!

如果页面上有任何内容不能公开使用,则页面必须在某种身份验证之后。


要记住的一件事是,如果这确实是机密的,那么不管您选择哪种方法,都将其与URL“隐藏”是不好的做法。在这种情况下,使用正确的身份验证非常重要。
约翰·穆勒

1
此外,社交媒体按钮(如/共享/ + 1 /各种书签)也可以获取内容,并且可以公开显示URL,标题和摘要,即使该URL上没有索引(或机器人禁止使用) 。文本文件)。防止这种情况的唯一方法是使用身份验证。
约翰·穆勒

2

好吧,我认为您有一个不错的搜寻器,可以读取robots.txt并遵循指令。和其他不遵循指令的。

您打算如何提供该网址?通过电子邮件,使用Facebook或Twitter?所有这些服务都对您发送的信息进行爬网。Gmail会解析您收到的电子邮件以提供广告。因此,您的网址将以某种方式进行爬网。

有些人使用Google工具栏(或搜索引擎中的其他任何工具栏)。有一个选项(如果我还记得的话,默认情况下已选中),该选项允许工具栏将您访问的所有网址发送给Google。这是Google查看隐藏网络的另一种方法。因此,即使您告诉某人不要共享该URL,也隐含地他(她)会(由于工具栏)。

我认为我们可以找到许多其他可能性。

因此,您可以将其添加到robots.txt中,还可以提供额外的元数据,例如noindex,nofollow等。

编辑:

w3d关于robots.txt的建议对我来说似乎很好。因此,请勿将其添加到robots.txt中并提供适当的元标记。


我正在通过电子邮件链接它们。是的,我打算提供适当的元数据。因此,您的建议是将其添加到机器人中还是不添加?谢谢
martjno 2012年

我建议将其添加到robots.txt。但是w3d的建议改变了我的想法。不要添加它,但要提供适当的元标记。
2012年

0

除了上面的评论外,我也建议至少使用HTACCESS身份验证-这样,您可以在个人获得授权的期间内为其提供用户名/密码组合,以查看其页面

如果有任何有关隐私的问题,那么您需要考虑适当的登录控制脚本。

一个不受保护的页面(无论您认为它有多隐藏)都将使其泛滥成灾。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.