网站管理员 web-crawlers

2

我一直在将网站迁移到新域。该网站本身非常简单（它使用Jekyll），并且一切都进行得很好-除了Disqus线程的迁移。我取得了部分成功-有些线程已成功迁移，但不是全部。我尝试了域迁移向导（捕获了一些），URL映射器（捕获了一些）和301重定向搜寻器（捕获了一些）。但是，无论我使用哪种方法，其余线程都不会移动。因此，我想我想问的是我是否应该对此有所了解。当您执行这些迁移工具中的任何一个时，它表示将花费一些时间。那是几个小时吗？天？我无法确定它是否正常工作，也看不到任何日志记录或错误报告。

9 web-crawlers

2

Ask.com站点地图搜寻器下降了（永久）？

我一直Ask.com用作搜索引擎之一来ping通我的站点地图。今天当我去ping我的站点地图以重新索引我的站点地图时，该网站（http://submissions.ask.com/ping）说它不再存在？我进行了DNS查找，submissions.ask.com好像Ask.com已删除了该子域，但是他们的“ 网站抓取工具常见问题解答”中是否仍列出了该子域？有什么想法吗？

9 search-engines sitemap web-crawlers ping

3

应对机器人行为异常的策略

我有一个网站，出于监管原因，可能不会自动建立索引或搜索。这意味着我们需要让所有机器人远离，并防止它们爬行该站点。显然，我们有一个robots.txt文件，从一开始就不允许这样做。但是，观察robots.txt文件只是行为良好的机器人所能做的。最近，我们遇到了行为不佳的机器人的一些问题。我已经将Apache配置为禁止一些用户代理，但是解决这个问题很容易。因此，问题是，是否有某种方法可以配置Apache（也许通过安装某个模块？）来检测类似机器人的行为并做出响应？还有其他想法吗？目前，我所能做的就是基于对日志的手动检查来禁止IP地址，这根本不是可行的长期策略。

9 apache web-crawlers user-agent

2

我应该为没有投放任何广告的网站发布一个空的ads.txt文件吗？

在我管理的某些网站上请求ads.txt时，我看到了一些404错误。我猜答案可能与关于空的robots.txt文件或根本没有文件的问题相同（只是防止出现404错误）。但是，我很难理解ads.txt背后的基本概念。例如，IAB的官方帮助页面令人困惑 “当品牌广告商以编程方式购买媒体时，他们依赖的事实是，他们购买的网址是由那些发布商合法出售的。” “广告商购买媒体”的声音听起来就像是雇用一位律师制作引人注目的文字，图形和动画，但与上下文不符（不太可能以编程方式雇用艺术家）。“发布者出售的URL”看起来好像不是他们在谈论在isp或ICANN上注册URL 。发布者通常不出售URL，除非他们退出发布。显然，这是外域特定语言。那么，谁能解释一个空的ads.txt文件可能带来的影响？一些担忧是：它将以任何方式影响看起来像来自广告的传入链接吗？对内容中提到的产品或服务的传出链接有影响吗？这样会使我的网站对索引蜘蛛或其他搜寻器的兴趣降低吗？

9 web-crawlers advertising

5

拒绝访问Archive.is

我想拒绝archive.is访问我的网站。（未经我的同意，我不希望该网站缓存我的信息）。你知道这有可能吗？

8 web-crawlers noarchive

2

哪个元“机器人”标签会优先？

我的妻子在德国的一所高中上班。我最近注意到，使用Google 很难找到该学校的主页。我查看了页面的源代码，并且相信已经找到了原因：有两个<meta name="robots">标签；两个是标签。一个是 <meta name="robots" content="all"> 第二页，在页面的下方，是 <meta name="robots" content="noindex, follow"> 我的猜测是第二个胜过第一个，并阻止Google将网站编入索引。我对吗？我不想告诉网站管理员我已经找到问题并自欺欺人了（因为我对如何构建合适的网页一无所知，更不用说SEO了）。顺便说一句，如果您碰巧在网站上发现了其他任何问题，请报告。我的下一个候选者将是完全缺乏meta传达有关页面内容信息的相关标签。

8 seo web-crawlers meta-robots

2

Web爬网程序是否可以在不跟随静态链接的情况下查看静态页面？

如果我在域（http://www.domain.com/page.html）上创建了静态页面，并且网站上任何地方都没有链接到它，那么搜寻器还能看到它吗？

8 web-crawlers

Questions tagged «web-crawlers»