Questions tagged «web-crawlers»

一种出于各种目的访问网页的计算机程序(以抓取内容,向搜索引擎提供有关您的站点的信息等)。


1
Bingbot请求的trafficbasedsspsitemap.xml不存在
我管理的网站的日志显示Bingbot请求一个不存在的文件。请求的详细信息是 路径:/trafficbasedsspsitemap.xml Useragent:“ Mozilla / 5.0(兼容; bingbot / 2.0; + http://www.bing.com/bingbot.htm)” IP地址:65.55.213.244(反向查询解析为msnbot-65-55-213-244.search.msn.com) Bingbot寻找该文件的原因是什么?“基于流量的SSP网站地图”是什么意思?

8
防止漫游器抓取页面的特定部分
作为负责一个拥有论坛的小型网站的网站站长,我经常收到用户的抱怨,即内部搜索引擎和外部搜索(例如使用Google时)都完全被用户的签名污染了(他们使用了很长时间)签名,这是论坛经验的一部分,因为签名在我的论坛中非常有意义)。 因此,基本上,到目前为止,我看到两个选择: 将签名呈现为图片,并在用户单击“签名图片”时将其带到包含真实签名(带有签名中的链接等)的页面,并且该页面被设置为不可检索引擎蜘蛛)。这会消耗一些带宽并需要做一些工作(因为我需要一个HTML渲染器来生成图片等),但是显然这可以解决问题(存在一些小问题,因为签名不尊重字体的字体/颜色方案。用户,但我的用户无论如何都非常有创造力,他们的签名使用自定义字体/颜色/大小等,因此问题不大。 将网页中包含签名的每个部分标记为不可抓取。 但是我不确定稍后的内容:这可以做到吗?您可以仅将网页的特定部分标记为不可抓取吗?

4
Yahoo Search现在与Bing Search相同吗?
过去,雅虎的(令人难以置信的)糟糕的蜘蛛存在一些严重的问题,结果我们将其阻止了。Tumblr的Marco Arment也于2009年8月31日与我们分享了他的挫败感,这是我们阻止他们的一个因素。 自美国东部时间上午5:30以来,[Yahoo的Spider]每秒向我们发送70-200个请求。我从未见过像这样的东西,即使从过去滥用我们的流氓“实验”爬虫身上也看不到。Robots.txt禁令还不够:我必须在负载平衡器级别通过IP阻止它们。由于他们过去滥用堆栈溢出,因此我想您可能想知道。 雅虎的网络搜索似乎是“由Bing提供支持!” 现在。这很好,因为我们从未遇到过Bing的蜘蛛(又名MSNBOT)问题。 那么,Yahoo的搜索现在是否与Bing搜索相同,还是我们应该考虑潜在地解除对它们的阻止,如果它们以某种方式在各种困难下停止了如此艰难的吮吸?


6
搜寻我的网站并帮助我找到无效链接和未链接文件的好工具
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为网站管理员Stack Exchange 的主题。 6年前关闭。 我有一个相当大的旧站点,实际上有成千上万个PDF,这些PDF有时在数据库中占了比重,但通常只是页面上的链接,并且存储在该站点的大多数目录中。 我已经编写了一个php搜寻器来跟踪网站上的所有链接,然后将其与目录结构的转储进行比较,但是有没有更简单的方法?

3
有可能减慢百度蜘蛛的爬网频率吗?
百度蜘蛛的爬虫频率已经做出了很多。的确是这样:“ Baiduspider像疯了似的爬行。” 我在与我合作的网站上遇到了这种现象。在至少一个实例中,尽​​管百度提供的流量约为Google的0.1%,但我发现百度蜘蛛的抓取频率与Googlebot大致相同。 我希望将这些访问次数保持在我的网站上,数量尽可能少(也许有一天会增长吗?),但是我不能证明允许服务器上有如此大的负载。 上面链接的问题的公认答案表明,百度网站管理员工具提供了限制爬网速度的机会,但我很犹豫是否开放蠕虫(仅中文)罐。 是否有人有使用BWT限制Baiduspider爬网率的经验?还有另一种方法来限制此负载吗?

3
我应该设置什么用户代理?
有Ask机器人,它设置以下标头: Mozilla/2.0 (compatible; Ask Jeeves/Teoma) 考虑到这一点,我有以下问题: 如果我正在编写一个名为Goofy的Web爬网程序,应该使用哪个用户代理? 如果我放Mozilla/2.0或,有Mozilla/5.0什么区别? 我们对我应如何格式化用户代理以符合当前标准的任何其他建议都受到欢迎。

3
SEO-自适应网站和重复菜单
每当我创建响应式网站时,通常都会创建2个菜单:1个隐藏并用于移动电话,另一个显示为主菜单,然后隐藏以显示移动菜单。每当涉及SEO和蜘蛛浏览网站时,我是否因重复菜单而感到沮丧?我有什么可以向蜘蛛网指示此菜单适用于移动设备,这是主要功能吗? 我有2个不同菜单的最终原因是由于位置,通常主菜单位于徽标等下方的某种栏中,但是我想将移动菜单置于所有内容之上,因此位于徽标等上方。

3
robots.txt可以位于服务器的子目录中吗?
我有一个要从搜索引擎网络搜寻器隐藏的子目录。 一种方法是robots.txt在服务器的根目录中使用a (标准方法)。但是,任何知道网站URL并具有一些基本Web知识的人都可以访问robots.txt内容并可以发现不允许的目录。 我曾想过一种避免这种情况的方法,但我不确定是否可行。 我们X是子目录,我要排除的名称。停止Web爬网程序索引X目录并同时使某人更难X从根目录识别目录的robots.txt一种方法是robots.txt在X目录中添加,而不是在根目录中添加。 如果我遵循此解决方案,则会遇到以下问题: Web爬网程序会robots.txt在子目录中找到吗?(假设robots.txt存在,并且已经存在于根目录中) 如果robots.txt在X子目录中,那么我应该使用相对还是绝对路径?: User-agent: * Disallow: /X/ 要么 User-agent: * Disallow: /

7
如何阻止百度蜘蛛
我的大部分访问都是来自百度蜘蛛。我认为它根本不会帮助搜索引擎,因此我正在考虑如何阻止它们。可以通过iptables完成吗?我正在使用nginx作为我的网络服务器。

3
防止恶意机器人发布垃圾邮件
我记得一个网站因滥用而关闭,我想知道机器人是否参与其中。如果该机器人将某些内容发布到我的网站上,那么我可以采取哪些措施来应对它?我当时正在考虑设置一些Cookie,并通过JavaScript +时间戳和符号更改Cookie(因此,今天和下周无法使用昨天的Cookie)。 我确信大多数人/机器人都只会使用其他网站,而不是在其机器人中启用JavaScript。 我还可以做些什么?我正在考虑每日POST限制,以及那些只是随机发布垃圾邮件的通用漫游器的蜜罐。

3
Google如何找到没有链接的域名?
我最近注册了一个新域,将其指向我的现有服务器,并设置了一个最小页面,仅显示“测试”,仅此而已。 我今晚才发现该页面已在Google中建立索引!没有指向该站点的链接(由于我还没有做任何事情,我什至没有告诉任何人有关该域的信息)。 Google是在拖曳WHOIS记录还是什么?

4
通过.htaccess重定向,文件robots.txt和sitemap.xml可以动态吗?
我有一个多语言和多域站点。它通过唯一的CMS安装(Drupal)运行,因此我只有一个根目录。因此,据我所知,如果我有一个静态robots.txt,我只能在其中显示单个域的文件。 我可以在.htaccess中加入一行吗 Redirect 301 /robots.txt /robots.php (或同等说明,请指出,如果允许的话) 所以它重定向到一个动态的PHP文件,在那里我可以用来根据不同的含有$_SERVER['HTTP_HOST']? 以及对sitemap.xml的相同问题,因此我可以提供一个动态的sitemap.php,它指示每个不同域的不同链接。 如上所述,不使用.txt和.xml的问题是所有域在服务器计算机中共享一个物理目录。

2
我应该阻止我的网站中的漫游器,为什么?
我的日志充满了机器人访问者,通常来自东欧和中国。僵尸程序被标识为Ahrefs,Seznam,LSSRocketCrawler,Yandex,Sogou等。我应该从我的网站阻止这些机器人,为什么? 哪些网站具有增加我的网站访问量的合法目的?其中许多是SEO。 我不得不说,我看不太流量,如果因为机器人任何大量已经抵达。 阻止它们并不难,因为它们都在用户代理中承认它们是机器人。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.