我应该阻止我的网站中的漫游器，为什么？

我的日志充满了机器人访问者，通常来自东欧和中国。僵尸程序被标识为Ahrefs，Seznam，LSSRocketCrawler，Yandex，Sogou等。我应该从我的网站阻止这些机器人，为什么？

哪些网站具有增加我的网站访问量的合法目的？其中许多是SEO。

我不得不说，我看不太流量，如果因为机器人任何大量已经抵达。

阻止它们并不难，因为它们都在用户代理中承认它们是机器人。

seo web-crawlers user-agent

— 弗兰克·E
source

Answers:

您可以阻止漫游器，但这取决于您对网站的需求。

如果您不想看到您的网站在特定搜索引擎中被索引，则可以阻止搜索引擎机器人。
示例：Yandex是俄语搜索引擎。如果您的业务不针对俄罗斯，则可以阻止其漫游器。

如果您不想使用他们的Web分析解决方案，则可以阻止SEO机器人。
示例：Ahrefs是Web分析解决方案。如果您不使用此网络分析解决方案，则可以阻止其漫游器。

阻止漫游器的原因：

更少的机器人访问您的网站，更多的带宽归功于实际访问者
安全防范恶意软件漫游器
日志大小

不阻止漫游器的原因：

诸如搜索引擎机器人之类的机器人可以通过索引您的网站来增加流量。

您可以通过阅读robotstxt.org的FAQ来了解有关机器人的更多信息。

如果您要确定要阻止的多个机器人，则可以从该网站robots.txt中获取启发。

请注意，某些漫游器可能会忽略robots.txt，请点击此处了解更多信息。

结论：您可以搜索互联网机器人功能，以确定阻止它们是否有用。

— Zistoloen
source

谢谢。顺便说一句，我也得到了Linode的访问。UA表示这是Python脚本。我应该怀疑吗？

— Frank E

如果我是你，我不会阻止Linode。我不知道托管是什么。

— Zistoloen

IPStrada呢？我看到他们不时出现。他们从不注册帐户。

— Frank E

像Linode。机器人会扫描互联网，即使您或他们从未注册过帐户也是如此。但是不用担心，这没什么大不了的。

— Zistoloen

虽然尝试阻止漫游器可以帮助释放资源和清理日志，但要特别注意的是，robots.txt甚至在noindex页面上使用meta标记实际上都不会阻止漫游器访问您的网站。他们仍然偶尔可以爬网您的站点，以查看是否已删除了来自机器人的拒绝。许多机器人甚至不使用用户代理，而将使用标准用户代理。我所指的机器人通常是SEO收集机器人，它们会扫描反向链接，而不是您从搜索引擎中找到的常规机器人。

积极监控您的网站一段时间后，您应该建立一个粗略的数字，而不是阻止这些漫游器，而应在吸引访问者时考虑这些漫游器。大多数人都在关心独特的访问，这将机器人排除在外，因为它们不断返回。在当今时代，有很多服务器，可以处理这些机器人的共享主机，因此除了您不希望索引的页面之外，我看不出有什么理由阻止这些机器人。当然，您也有有害的机器人，但是这些机器人肯定不会使用用户代理;）。

我个人认为封锁机器人是浪费时间，因为它们根本不使用太多资源，SEO机器人可以帮助您，因为它们在PR0页上列出您的网站，这当然会增加您的PageRank并自动进行，因此您不会受到惩罚被他们。

日志问题

您应该使用适当的日志查看器，以使您能够过滤掉某些请求，这使得在查看日志时更加容易。好的观众可以过滤掉很多东西，例如正常访问，404s等。

— 西蒙·海特
source

为什么SEO机器人会扫描反向链接？仅仅是因为这就是SEO顾问使用的东西吗？还是还有其他险恶的目的？

— Frank E

嗨，弗兰克，他们扫描反向链接并记录下来，以便网站管理员可以看到谁链接到他们。对于SEO公司来说，登录反向链接并向网站管理员收取费用是很可观的，他们可以查找链接到谁的链接，链接的创建时间，链接的删除，跟踪的对象或不跟踪的对象-他们使用的锚文本等等。Google，Bing不会提供此信息，因此它是一项理想的服务，对于希望查看其链接网络的大多数Web管理员来说都是有价值的。

— 西蒙·海特

毫无疑问，人们寻找的许多漏洞是通过使用搜索引擎收集的，而不是让机器人没有对每个站点进行扫描的。例如，如果模块/插件已过期，并且存在已知的利用漏洞，则人们将使用Google定位这些网站以对其进行利用。阻止漫游器无法保护您的服务器：P

— Simon Hayter

@bybe通过“ vulablites”，您的意思是“漏洞”吗？

— DaveP

@DaveP绝对;）thx-已更正。

— 西蒙·海特