Answers:
您可以阻止漫游器,但这取决于您对网站的需求。
如果您不想看到您的网站在特定搜索引擎中被索引,则可以阻止搜索引擎机器人。
示例:Yandex是俄语搜索引擎。如果您的业务不针对俄罗斯,则可以阻止其漫游器。
如果您不想使用他们的Web分析解决方案,则可以阻止SEO机器人。
示例:Ahrefs是Web分析解决方案。如果您不使用此网络分析解决方案,则可以阻止其漫游器。
阻止漫游器的原因:
不阻止漫游器的原因:
您可以通过阅读robotstxt.org的FAQ来了解有关机器人的更多信息。
如果您要确定要阻止的多个机器人,则可以从该网站robots.txt中获取启发。
请注意,某些漫游器可能会忽略robots.txt,请点击此处了解更多信息。
结论:您可以搜索互联网机器人功能,以确定阻止它们是否有用。
虽然尝试阻止漫游器可以帮助释放资源和清理日志,但要特别注意的是,robots.txt甚至在noindex页面上使用meta标记实际上都不会阻止漫游器访问您的网站。他们仍然偶尔可以爬网您的站点,以查看是否已删除了来自机器人的拒绝。许多机器人甚至不使用用户代理,而将使用标准用户代理。我所指的机器人通常是SEO收集机器人,它们会扫描反向链接,而不是您从搜索引擎中找到的常规机器人。
积极监控您的网站一段时间后,您应该建立一个粗略的数字,而不是阻止这些漫游器,而应在吸引访问者时考虑这些漫游器。大多数人都在关心独特的访问,这将机器人排除在外,因为它们不断返回。在当今时代,有很多服务器,可以处理这些机器人的共享主机,因此除了您不希望索引的页面之外,我看不出有什么理由阻止这些机器人。当然,您也有有害的机器人,但是这些机器人肯定不会使用用户代理;)。
我个人认为封锁机器人是浪费时间,因为它们根本不使用太多资源,SEO机器人可以帮助您,因为它们在PR0页上列出您的网站,这当然会增加您的PageRank并自动进行,因此您不会受到惩罚被他们。
日志问题
您应该使用适当的日志查看器,以使您能够过滤掉某些请求,这使得在查看日志时更加容易。好的观众可以过滤掉很多东西,例如正常访问,404s等。