Questions tagged «web-crawlers»

一种出于各种目的访问网页的计算机程序(以抓取内容,向搜索引擎提供有关您的站点的信息等)。

2
Disqus线程迁移。陷阱?
我一直在将网站迁移到新域。该网站本身非常简单(它使用Jekyll),并且一切都进行得很好-除了Disqus线程的迁移。 我取得了部分成功-有些线程已成功迁移,但不是全部。 我尝试了域迁移向导(捕获了一些),URL映射器(捕获了一些)和301重定向搜寻器(捕获了一些)。但是,无论我使用哪种方法,其余线程都不会移动。 因此,我想我想问的是我是否应该对此有所了解。当您执行这些迁移工具中的任何一个时,它表示将花费一些时间。那是几个小时吗?天?我无法确定它是否正常工作,也看不到任何日志记录或错误报告。

2
Ask.com站点地图搜寻器下降了(永久)?
我一直Ask.com用作搜索引擎之一来ping通我的站点地图。今天当我去ping我的站点地图以重新索引我的站点地图时,该网站(http://submissions.ask.com/ping)说它不再存在?我进行了DNS查找,submissions.ask.com好像Ask.com已删除了该子域,但是他们的“ 网站抓取工具常见问题解答”中是否仍列出了该子域?有什么想法吗?

3
应对机器人行为异常的策略
我有一个网站,出于监管原因,可能不会自动建立索引或搜索。这意味着我们需要让所有机器人远离,并防止它们爬行该站点。 显然,我们有一个robots.txt文件,从一开始就不允许这样做。但是,观察robots.txt文件只是行为良好的机器人所能做的。最近,我们遇到了行为不佳的机器人的一些问题。我已经将Apache配置为禁止一些用户代理,但是解决这个问题很容易。 因此,问题是,是否有某种方法可以配置Apache(也许通过安装某个模块?)来检测类似机器人的行为并做出响应?还有其他想法吗? 目前,我所能做的就是基于对日志的手动检查来禁止IP地址,这根本不是可行的长期策略。

2
我应该为没有投放任何广告的网站发布一个空的ads.txt文件吗?
在我管理的某些网站上请求ads.txt时,我看到了一些404错误。我猜答案可能与关于空的robots.txt文件或根本没有文件的问题相同(只是防止出现404错误)。但是,我很难理解ads.txt背后的基本概念。 例如,IAB的官方帮助页面令人困惑 “当品牌广告商以编程方式购买媒体时,他们依赖的事实是,他们购买的网址是由那些发布商合法出售的。” “广告商购买媒体”的声音听起来就像是雇用一位律师制作引人注目的文字,图形和动画,但与上下文不符(不太可能以编程方式雇用艺术家)。“发布者出售的URL”看起来好像不是他们在谈论在isp或ICANN上注册URL 。发布者通常不出售URL,除非他们退出发布。 显然,这是外域特定语言。那么,谁能解释一个空的ads.txt文件可能带来的影响?一些担忧是: 它将以任何方式影响看起来像来自广告的传入链接吗? 对内容中提到的产品或服务的传出链接有影响吗? 这样会使我的网站对索引蜘蛛或其他搜寻器的兴趣降低吗?


2
哪个元“机器人”标签会优先?
我的妻子在德国的一所高中上班。我最近注意到,使用Google 很难找到该学校的主页。我查看了页面的源代码,并且相信已经找到了原因:有两个<meta name="robots">标签;两个是标签。一个是 <meta name="robots" content="all"> 第二页,在页面的下方,是 <meta name="robots" content="noindex, follow"> 我的猜测是第二个胜过第一个,并阻止Google将网站编入索引。我对吗?我不想告诉网站管理员我已经找到问题并自欺欺人了(因为我对如何构建合适的网页一无所知,更不用说SEO了)。 顺便说一句,如果您碰巧在网站上发现了其他任何问题,请报告。我的下一个候选者将是完全缺乏meta传达有关页面内容信息的相关标签。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.