网站管理员 web-crawlers

1

当我查看apache日志时，可以看到百度在过去2周中每天爬行10次。我并不是很在乎它，但我真的很好奇他为什么要这么做。这是一个非常小的单页网站，没有太多的传入链接。这背后有什么原因吗？ 220.181.108.169 [10/Mar/2012:10:41:29 +0100] "GET / ... +http://www.baidu.com/search/spider.html)" 180.76.5.197 [10/Mar/2012:11:02:02 +0100] "GET / ...robots.txt +(+http://www.baidu.com/search/spider.htm)" 123.125.71.100 [10/Mar/2012:11:33:15 +0100] "GET / ... +http://www.baidu.com/search/spider.html)" 220.181.108.167 [10/Mar/2012:11:33:52 +0100] "GET / ... +http://www.baidu.com/search/spider.html)" 123.125.71.116 [10/Mar/2012:12:24:48 +0100] "GET / ... +http://www.baidu.com/search/spider.html)" 220.181.108.172 [10/Mar/2012:12:25:05 +0100] "GET / ... +http://www.baidu.com/search/spider.html)" 123.125.71.111 [10/Mar/2012:13:33:22 +0100] "GET / …

12 seo web-crawlers baidu

4

可抓取的Ajax的状态？

我看到Google通过＃提出了一个使Ajax应用程序可爬网的好建议/标准！（哈希爆炸）。 http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html 我的问题是：他们目前是否已在现实世界中使用此“建议”？是否还有其他搜索引擎-特别是Bing，也正在使用或计划使用它？

12 seo google ajax web-crawlers

4

Google不会抓取CDN文件

我注意到Google网站站长工具报告了我网站上很多被阻止的资源。现在，所有“被阻止的资源”都是我从Cloudfront CDN提供的.css，.js和图像（.jpg，.png）。我花了很多时间进行测试，并试图找出Google为什么不抓取这些文件并报告“资源阻止”状态的原因。目前，我从多个主机名提供这些文件，例如：cdn1.example.com，cdn2.example.com，... cdn1，cdn2和其他名称是CCloud的Cloudfront发行名称。测试：我尝试直接使用cloudfront发行版（无CNAME），但问题仍然存在。目前，我的robots.txt如下所示： # Google AdSense User-agent: Mediapartners-Google Disallow: #Google images User-agent: Googlebot-Image Disallow: / User-agent: * Disallow: /homepage Disallow: /index.php* Disallow: /uncategorized* Disallow: /tag/* Disallow: *feed Disallow: */page/* Disallow: *author* Disallow: *archive* Disallow: */category* Disallow: *tag=* Disallow: /test* Allow: / 以及在一个示例页面中阻止的文件示例： cdn1.example.com/wp-content/plugins/wp-forecast/wp-forecast-default.css cdn9.example.com/wp-content/plugins/bwp-minify/min/?f=wp-content/themes/magazine/css/font-awesome.min.css,wp-content/themes/magazine/css/response .css cdn5.example.com/wp-content/themes/magazine/images/nobg.png …

11 google-search-console web-crawlers googlebot cdn amazon-cloudfront

2

哪些机器人真正值得进入网站？

编写了许多机器人程序，并看到大量随机机器人程序在爬网时，我想知道作为网站管理员，究竟有什么机器人程序值得让您进入网站？我首先想到的是，允许漫游器进入该网站可能会带来实际流量。有什么理由允许未知的机器人将真实流量发送到站点，您如何发现这些“好”机器人？

11 seo web-crawlers robots.txt googlebot bingbot

2

Google网站管理员工具告诉我，机器人阻止了对站点地图的访问

这是我的robots.txt： User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz 但是Google网站站长工具告诉我，机器人阻止了对站点地图的访问：尝试访问您的站点地图时遇到错误。请确保您的站点地图符合我们的指南，并且可以在您提供的位置进行访问，然后重新提交：URL受robots.txt限制。我了解到Google网站站长工具会缓存robots.txt，但该文件已更新36个小时以上。更新：点击“测试”站点地图不会导致Google获取新的站点地图。只有SUBMIT网站地图可以做到这一点。（顺便说一句，除非您将当前站点地图粘贴到其中，否则我看不出“测试站点地图”的意义是什么-它不会从测试前要求您输入的地址中提取站点地图的新副本-但这是换个问题。）提交（而非测试）新的站点地图后，情况发生了变化。现在，我得到“ URL被robots.txt阻止。站点地图包含被robots.txt阻止的URL 。” 适用于44个网址。该站点地图中恰好有44个URL。这意味着Google使用的是新的站点地图，但仍旧沿用旧的机器人规则（这使所有内容都无法进入）。44个URL都不在/wp-admin/或/wp-includes/（这是不可能的，因为robots.txt是基于由创建站点地图的相同插件即时获取）。更新2：情况变得更糟：在Google搜索结果页上，首页的描述为：“由于该网站的robots.txt –了解更多，因此无法提供此结果的描述”。所有其他页面都有详细的说明。没有robots.txt或首页的robots元拦截索引。我被卡住了。

11 google-search-console robots.txt web-crawlers

4

Adsense Click机器人正在点击轰炸我的网站

我有一个网站，目前每天可获得大约7,000-10,000次页面浏览。从12年7月1日凌晨1点开始，我注意到点击率急剧上升。这些点击将被记入贷方，然后不久被撤消。因此，它们显然是欺诈性点击。第二天，我获得了大约200次点击，其中大约100次被欺诈。每天24小时，三个广告中的每个广告平均每小时分散3-8次点击。这使我相信这是一种Adsense Click机器人。另外，我昨晚删除了广告，然后将其放到凌晨3点左右，无效点击在10分钟内开始。我注册了statcounter.com来分析Adsense上的退出链接。然后，我有条件地屏蔽了我怀疑这样做的人员/机器人的IP地址的广告。但是，我认为该机器人可以选择几个代理，并且可以刷新IP地址。在过去两天中，我已经通过无效点击表单 /电子邮件通知Google 4次，以便让他们知道我已经知道这种情况，并且正在研究解决方案。我也暂时删除了该网站上的所有广告。如何阻止这样的机器人？谢谢。

11 google-adsense advertising web-crawlers botattack

6

从观看次数中排除漫游器的最佳方法是什么？

我的网站在某些页面上统计访问者的浏览量。我注意到Google和其他Bot疯狂地“点击”了我的网站，并且某些页面的观看次数不切实际（与人工制作的相比）。我正在寻求最佳做法，以将这些漫游器排除在我的视野之外。显然，包含“机器人”的简单“用户代理”是不会做的。我认为没有解决方案，也不需要。注意：我使用的是PHP + MySQL。

11 php mysql web-crawlers best-practices

1

在robots.txt中合并用户代理

可以将用户代理一起列出，然后在robots.txt中列出其通用规则吗？ User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

11 web-crawlers robots.txt user-agent

1

Googlebot向我们的地图定位器提交了数千个请求，并用尽了API配额

我们在客户的站点上有一个商店定位器页面。最终用户输入他们的邮政编码和搜索半径，然后我们将结果显示在Google地图上。最近，我们开始注意到该网站已达到免费地图搜索的上限（每24小时大约25,000个），而总体流量却没有明显增加。我打开了一些其他日志记录以尝试查找问题所在。事实证明，Googlebot正在此地图上进行数千次搜索。这是一个小样本： 2017-07-09 23：56：22,719 [7] INFO ShopLanding-[Thread 41] Google Maps：搜索到的G23收到来自66.249.66.221的确定 2017-07-09 23：56：35,469 [7]信息ShopLanding-[线程10] Google地图：搜索到的CA6从66.249.66.221接收到确定 2017-07-09 23：57：24,563 [7]信息ShopLanding-[线程48]谷歌地图：搜索到的BN14收到来自66.249.66.223的确定 2017-07-09 23：58：00,970 [7]信息ShopLanding-[Thread 42] Google Maps：搜索到的CB4收到来自66.249.66.221的确定 2017-07-09 23：58：13,064 [7]信息ShopLanding-[Thread 54] Google Maps：搜索的DY9从66.249.66.221接收到确定 2017-07-09 23：59：18,722 [7]信息ShopLanding-[线程59]谷歌地图：搜索到的TS3从66.249.66.223收到确定 2017-07-09 23：59：53,223 [7]信息ShopLanding-[Thread 49] Google Maps：搜索到的S45从66.249.66.221接收到确定有什么办法可以阻止Google推送这么多请求？这吞噬了免费津贴的很大一部分。每天的合法搜索量似乎不足200。编辑该站点基于C＃ASP.NET构建。商店搜索使用的是POST，提交后该URL不会更改。我可以在明天早上发布IIS日志样本，以确认此行为。

10 web-crawlers google-maps

1

robots.txt中的“ Noindex：”如何工作？

我今天在我的SEO新闻中浏览了这篇文章。似乎暗示您Noindex:除了robots.txt中的标准Disallow:指令外，还可以使用指令。 Disallow: /page-one.html Noindex: /page-two.html 似乎这样做会阻止搜索引擎抓取第一页，并阻止它们索引第二页。这是robots.txt的谷歌和其他搜索引擎所支持的指令？它行得通吗？有文件记录吗？

10 web-crawlers robots.txt googlebot noindex

2

仅允许Google和Bing机器人抓取网站

我正在为网站使用以下robots.txt文件：目标是允许googlebot和bingbot访问除页面之外的网站，/bedven/bedrijf/*并阻止所有其他bot爬行该网站。 User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: * Disallow: / 最后一条规则是否User-agent: * Disallow: /禁止所有漫游器抓取网站上的每个页面？

10 web-crawlers robots.txt

2

用户代理中URL前面的加号

我运行了一个小型Web搜寻器，必须决定要使用哪个用户代理。搜寻器代理以及Wikipedia的列表建议采用以下格式： examplebot/1.2 (+http://www.example.com/bot.html) 但是，某些漫游器会省略URL前面的加号。我首先想知道这是什么意思，但找不到任何解释。 RFC 2616认为括号中的所有内容均为注释，并且不限制其格式。但是，对于浏览器来说，在注释中使用分号分隔的标记列表是很常见的，这些标记可以宣传浏览器的版本和功能。除了大多数浏览器以类似的方式格式化外，我认为这没有任何标准化的方法。而且我在评论中找不到任何有关URL的信息。我的问题是：为什么加号？我需要吗？

10 web-crawlers http user-agent

1

Google如何抓取我的403页？

我的学校文件夹中的目录中有几个私人文件。您可以通过转到myschool.edu/myusername/myfolder来查看文件是否存在，但是尝试通过myschool.edu/myusername/myfolder/myfile.html访问文件本身会返回403错误。但是Google以某种方式设法获取了这些私有文件的内容，并将其存储在其缓存中！这怎么可能？[此后我已经删除了这些文件，所以我很好奇Google如何做到这一点。]

10 web-crawlers security googlebot

6

如何正确（禁止）使用archive.org机器人？事情变了吗？

我有一个网站，我通常不希望被搜索引擎索引，但我希望将其永久保存在archive.org上。所以我robots.txt从这里开始： User-agent: * Disallow: / 今天，根据archive.org，我必须在其中添加以下内容robots.txt以允许其漫游器： User-agent: ia_archiver Disallow: 但是，至少在几年前，我已经完成了他们的指示，至少添加了以下内容： User-agent: archive.org_bot Disallow: 然后还有另一个消息来源声称您必须在Disallows上加上两个，再加上一个： User-agent: ia_archiver-web.archive.org Disallow: 请注意，Disallow: /如果您不希望漫游器存档您的网站，则需要输入。 IA bot发生了变化吗？如果是这样，什么时候？推荐的方法是什么？我现在是否应该允许所有这三个名称，并希望IA将来不再更改其机器人名称？

10 web-crawlers robots.txt internet-archive

2

我们应该放弃AJAX爬行方案吗？

因此，现在Google已弃用AJAX爬网方案。他们说不要打扰在新网站中实施它，因为Googlebot现在可以观看动态内容，因此不再需要它。我们应该立即信任该声明，还是暂时坚持不推荐使用的标准？

9 seo web-crawlers googlebot ajax

Questions tagged «web-crawlers»