Web爬网程序是否可以在不跟随静态链接的情况下查看静态页面?


Answers:


10

他们看到了吗?是。他们能找到吗?不是没有帮助。

Web爬网程序通常通过跟踪其他页面上指向它们的链接来查找要爬网的页面。某些爬网程序(例如搜索引擎爬网程序)还将爬网特殊XML文件中列出的页面。因此,如果您的网站或任何其他网站上没有指向该页面的链接,则将不会对该页面进行爬网(包含该页面URL的纯文本页面将由Google找到)。

但是,一旦页面被发现并被爬网,即使该页面的所有链接已从其各自的网站中删除,也可能会再次被爬网。这是因为然后对已爬网的页面进行索引(例如,将其添加到要再次爬网的爬网程序列表中),因此爬网程序知道稍后会再次对其进行爬网以查找更改。如果要防止这种情况发生,可以执行以下任一操作:

最有效率

  • 从Internet删除页面
  • 更改了该页面的URL(实质上是删除该页面并添加一个新页面)
  • 将其放在登录名后面

效果较差

  • 使用robots.txt文件阻止该页面(可以忽略)
  • 尝试通过IP(每次访问可能会更改)或用户代理(可能是欺骗的)过滤掉不良的bot。

1

可以发现该页面的另一种方法是当您具有指向该页面上其他站点的链接时。

您页面的URL将出现在他们的引荐来源记录日志中,许多网站管理员的一个不错的时间安排是短暂浏览这些日志并查看其他人对他们页面的评价。

有些网站似乎提供对这些日志的访问权限,而没有任何访问限制,因此爬网程序也可以访问它们。

为了使页面真正保密,请不要让它链接到外部站点。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.