Web爬网程序是否可以在不跟随静态链接的情况下查看静态页面？

8

如果我在域（http://www.domain.com/page.html）上创建了静态页面，并且网站上任何地方都没有链接到它，那么搜寻器还能看到它吗？

web-crawlers

— 分为
source

是的，只需在Skype中发送链接，Bing便会找到该链接并为您建立索引。

— Chloe

10

他们看到了吗？是。他们能找到吗？不是没有帮助。

Web爬网程序通常通过跟踪其他页面上指向它们的链接来查找要爬网的页面。某些爬网程序（例如搜索引擎爬网程序）还将爬网特殊XML文件中列出的页面。因此，如果您的网站或任何其他网站上没有指向该页面的链接，则将不会对该页面进行爬网（包含该页面URL的纯文本页面将由Google找到）。

但是，一旦页面被发现并被爬网，即使该页面的所有链接已从其各自的网站中删除，也可能会再次被爬网。这是因为然后对已爬网的页面进行索引（例如，将其添加到要再次爬网的爬网程序列表中），因此爬网程序知道稍后会再次对其进行爬网以查找更改。如果要防止这种情况发生，可以执行以下任一操作：

最有效率

效果较差

— 约翰·康德
source

1

可以发现该页面的另一种方法是当您具有指向该页面上其他站点的链接时。

您页面的URL将出现在他们的引荐来源记录日志中，许多网站管理员的一个不错的时间安排是短暂浏览这些日志并查看其他人对他们页面的评价。

有些网站似乎提供对这些日志的访问权限，而没有任何访问限制，因此爬网程序也可以访问它们。

为了使页面真正保密，请不要让它链接到外部站点。

— 路易斯·萨默斯
source